← 返回信息流
AI 资讯雷峰网·3 小时前

火山引擎发布Agentic VCloud重构Agent时代视频云

原标题:从 VCloud 到 Agentic VCloud:Agent 时代的范式重构

速览

火山引擎在2026 FORCE大会上发布Agentic VCloud,旨在重构视频云以适配Agent时代需求。该架构通过多模态链路和AI MediaKit,赋予视频云感知、推理及工具调用能力,实现从内容消费到意图交付的范式转变。此举标志着视频云从服务人类感官体验转向成为连接人与AI的关键基础设施。

AI 深度解读

背景

随着大模型技术的演进,行业正从单纯的 AI 感知阶段跑步进入 Agent(智能体)时代。在这一趋势下,音视频的角色发生了根本性转变:从过去主要作为供人单向消费的信息载体,进化为支持 Agent 面向真实世界进行输入、输出、意图对齐及任务交付的核心媒介。

传统的视频云(VCloud)主要致力于解决画质、延迟、并发和成本等工程问题,以优化人类的视听体验。然而,在 Agent 时代,视频云的服务对象从“人”扩展到了“人 + Agent”。Agent 需要依靠视频云去感知世界、理解需求、执行任务并交付结果。这意味着视频云不再仅仅是内容基础设施,而是成为了 Agent 在多模态场景下进行感知、处理、表达与执行的重要能力层,以及智能应用连接真实世界的关键基础设施。

核心内容

火山引擎在 2026 火山引擎 FORCE 原动力大会上提出了从 VCloud 向 Agentic VCloud(智能体视频云)重构的理念。这一重构旨在让视频云具备服务长周期任务链路的能力,包括持续感知、理解、推理、工具调用、环境反馈及结果交付。

为了实现这一目标,火山引擎构建了 Agentic VCloud 的两项核心能力:多模态链路AI MediaKit

1. 多模态链路:Agent 的感知基础设施 多模态链路负责支撑 Agent 的感知与环境反馈,连接实时物理世界与大模型的概率世界。

  • MoQ (Media over QUIC) 多模态传输:统一了媒体语义、媒体对象和媒体传输,旨在解决低延迟和大规模并发难题。其目标是实现小于 600ms 的 Agent 建连时延以及亿级 AI 会话并发。
  • 多模态网关:搭建语义桥梁,解决信息对齐问题。通过支持 10ms 语义判停、多模态音画同步以及 99.99% 的语义级可靠传输,避免如将“戴尔”误听为“海尔”等错误,确保 Agent 获取准确的上下文信息。

2. AI MediaKit:Agent 友好的音视频开发套件 AI MediaKit 将视频云积累的“能力组件”编排进“Agent 意图交付”链路,使 Agent 能通过自然语言触发复杂工作流。它采用 Agent-Native 的三层架构:

  • 意图层 (Media Intent):面向 Agent 提供声明式 API、端云结合的 CLI、媒体领域知识 Skill 以及 LLM 原生的 MCP 协议,用于明确“要什么”及“有哪些约束”。
  • 媒体工作流层:将意图自动编排成可执行的算子级工作流,支持图像、音频、视频、文本四种模态的处理,涵盖感知、增强、编码、剪辑、生成五类基础能力。
  • 媒体运行时:负责交付可验证的音视频产物。通过端云结合调度,云端利用 Comet 编码芯片、GenVR 音视频增强等高阶能力,本地则利用 FFmpeg 等基础能力,根据任务复杂度动态分配算力。

关键要点

  • 范式转移:视频云的价值衡量维度从“保下限”(不卡顿、不糊、低成本)转向“提上限”(精准理解上下文、自然语言触发工作流、交付企业级可用结果)。
  • 新竞争焦点:功能、参数和成本仅是入场券,真正的竞争在于谁能将模型、媒体处理、实时通信、工具调用、算力调度和行业 Know-how 组合成稳定闭环,并将任务完成度从 Demo 水平推向企业级水平(90% 以上)。
  • 技术架构革新:Agentic VCloud 不再局限于单一环节(如转码或分发),而是进入 Agent 的完整任务链路,从理解意图开始,参与编排、调度、执行和结果验证。
  • 基础设施定位升级:Agentic VCloud 被视为 Agent 时代的主力基础设施,旨在让数字员工轻松听懂会议、识别屏幕,或让内容创作 Agent 将自然语言拆解为素材理解、增强、剪辑、编码和发布的全流程。
  • 市场增长潜力:IDC 数据显示,2025 年上半年 AI 驱动的“音视频 AI 实时互动与智能媒体生产”细分市场已达 4000 万美元量级,同比大三位数增长,显示出 AI 应用对实时音视频交互能力的巨大需求。

意义与影响

从 VCloud 到 Agentic VCloud 的演进,标志着视频云从“内容基础设施”向“Agent 基础设施”的跨越。这一变化重新定义了行业的价值边界:当视频从信息载体变成任务载体,视频云便成为了人与 AI 协同交互的底座。

对于行业而言,这是一个重构市场格局的关键节点。谁能更快完成从服务人类感官体验到服务 Agent 意图交付的周期切换,谁就更有可能在 Agent 时代建立新的服务能力和竞争优势。这不仅是一次产品升级,更是视频云进入新周期的信号,预示着未来视频云将深度融入 AI 应用的底层逻辑,成为支撑智能体在真实世界中高效、可靠执行任务的核心力量。

查看原文 →leiphone.com