AI 资讯雷峰网·3 小时前

火山引擎发布Agentic VCloud重构Agent时代视频云

原标题：从 VCloud 到 Agentic VCloud：Agent 时代的范式重构

速览

火山引擎在2026 FORCE大会上发布Agentic VCloud，旨在重构视频云以适配Agent时代需求。该架构通过多模态链路和AI MediaKit，赋予视频云感知、推理及工具调用能力，实现从内容消费到意图交付的范式转变。此举标志着视频云从服务人类感官体验转向成为连接人与AI的关键基础设施。

AI 深度解读

背景

随着大模型技术的演进，行业正从单纯的 AI 感知阶段跑步进入 Agent（智能体）时代。在这一趋势下，音视频的角色发生了根本性转变：从过去主要作为供人单向消费的信息载体，进化为支持 Agent 面向真实世界进行输入、输出、意图对齐及任务交付的核心媒介。

传统的视频云（VCloud）主要致力于解决画质、延迟、并发和成本等工程问题，以优化人类的视听体验。然而，在 Agent 时代，视频云的服务对象从“人”扩展到了“人 + Agent”。Agent 需要依靠视频云去感知世界、理解需求、执行任务并交付结果。这意味着视频云不再仅仅是内容基础设施，而是成为了 Agent 在多模态场景下进行感知、处理、表达与执行的重要能力层，以及智能应用连接真实世界的关键基础设施。

核心内容

火山引擎在 2026 火山引擎 FORCE 原动力大会上提出了从 VCloud 向 Agentic VCloud（智能体视频云）重构的理念。这一重构旨在让视频云具备服务长周期任务链路的能力，包括持续感知、理解、推理、工具调用、环境反馈及结果交付。

为了实现这一目标，火山引擎构建了 Agentic VCloud 的两项核心能力：多模态链路与 AI MediaKit。

1. 多模态链路：Agent 的感知基础设施 多模态链路负责支撑 Agent 的感知与环境反馈，连接实时物理世界与大模型的概率世界。

MoQ (Media over QUIC) 多模态传输：统一了媒体语义、媒体对象和媒体传输，旨在解决低延迟和大规模并发难题。其目标是实现小于 600ms 的 Agent 建连时延以及亿级 AI 会话并发。
多模态网关：搭建语义桥梁，解决信息对齐问题。通过支持 10ms 语义判停、多模态音画同步以及 99.99% 的语义级可靠传输，避免如将“戴尔”误听为“海尔”等错误，确保 Agent 获取准确的上下文信息。

2. AI MediaKit：Agent 友好的音视频开发套件 AI MediaKit 将视频云积累的“能力组件”编排进“Agent 意图交付”链路，使 Agent 能通过自然语言触发复杂工作流。它采用 Agent-Native 的三层架构：

意图层 (Media Intent)：面向 Agent 提供声明式 API、端云结合的 CLI、媒体领域知识 Skill 以及 LLM 原生的 MCP 协议，用于明确“要什么”及“有哪些约束”。
媒体工作流层：将意图自动编排成可执行的算子级工作流，支持图像、音频、视频、文本四种模态的处理，涵盖感知、增强、编码、剪辑、生成五类基础能力。
媒体运行时：负责交付可验证的音视频产物。通过端云结合调度，云端利用 Comet 编码芯片、GenVR 音视频增强等高阶能力，本地则利用 FFmpeg 等基础能力，根据任务复杂度动态分配算力。

关键要点

范式转移：视频云的价值衡量维度从“保下限”（不卡顿、不糊、低成本）转向“提上限”（精准理解上下文、自然语言触发工作流、交付企业级可用结果）。
新竞争焦点：功能、参数和成本仅是入场券，真正的竞争在于谁能将模型、媒体处理、实时通信、工具调用、算力调度和行业 Know-how 组合成稳定闭环，并将任务完成度从 Demo 水平推向企业级水平（90% 以上）。
技术架构革新：Agentic VCloud 不再局限于单一环节（如转码或分发），而是进入 Agent 的完整任务链路，从理解意图开始，参与编排、调度、执行和结果验证。
基础设施定位升级：Agentic VCloud 被视为 Agent 时代的主力基础设施，旨在让数字员工轻松听懂会议、识别屏幕，或让内容创作 Agent 将自然语言拆解为素材理解、增强、剪辑、编码和发布的全流程。
市场增长潜力：IDC 数据显示，2025 年上半年 AI 驱动的“音视频 AI 实时互动与智能媒体生产”细分市场已达 4000 万美元量级，同比大三位数增长，显示出 AI 应用对实时音视频交互能力的巨大需求。

意义与影响

从 VCloud 到 Agentic VCloud 的演进，标志着视频云从“内容基础设施”向“Agent 基础设施”的跨越。这一变化重新定义了行业的价值边界：当视频从信息载体变成任务载体，视频云便成为了人与 AI 协同交互的底座。

对于行业而言，这是一个重构市场格局的关键节点。谁能更快完成从服务人类感官体验到服务 Agent 意图交付的周期切换，谁就更有可能在 Agent 时代建立新的服务能力和竞争优势。这不仅是一次产品升级，更是视频云进入新周期的信号，预示着未来视频云将深度融入 AI 应用的底层逻辑，成为支撑智能体在真实世界中高效、可靠执行任务的核心力量。

查看原文 →leiphone.com

火山引擎发布Agentic VCloud重构Agent时代视频云

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐