← 返回信息流
AI 资讯量子位·3 小时前

Om AI联汇发布VLX:全球首个面向物理世界的端侧流式多模态模型

AI 深度解读

背景

随着人工智能应用场景从数字屏幕向真实物理世界延伸,多模态模型正面临一次架构范式的革新。物理世界具有三个刚性约束:时间是连续流动的、环境是动态变化的、终端算力是资源受限的。然而,传统的视频理解模型通常采用将整段视频切帧后一次性离线处理的方式,这种“截一帧、看完再说”的模式无法满足物理世界对实时感知与即时决策的迫切需求。在此背景下,Om AI联汇正式发布全球首个面向物理世界的端侧流式多模态模型系列——VLX,首次在业界提出“流式多模态”这一全新架构,旨在让AI具备像人一样持续观察环境并主动行动的能力。

核心内容

Om AI联汇推出的VLX系列,是一套完全围绕实时视频流与端侧设备原生构建的多模态模型。不同于将云端模型压缩后塞进终端的做法,VLX从架构层面为端侧具身智能重新设计,以流式编码与缓存增量推理实现毫秒级实时感知,首次在端侧打通了“持续感知→精准定位→行动决策”的完整闭环。

VLX系列由三款模型协同构成,围绕实时物理智能构建了完整的能力体系:

  1. VLX-Flow(持续感知):负责环境的持续观察。通过增量编码与缓存推理机制,模型不再被动等待提问,而是像人一样持续吸收新画面,实现提问瞬间响应。
  2. VLX-Seek(精准定位):负责可靠的空间感知。创新性地将坐标生成转化为区域检索,模型不再需要“猜坐标”,而是从候选区域中“选区域”,为端侧设备提供精准的空间定位能力。
  3. VLX-Go(行动执行):负责物理世界的自主行动。它将视觉理解直接转化为机器人可执行的短时航点与运动轨迹,而非仅仅输出文本建议,让设备能够自主完成跟随、避障与导航。

在这一全新范式下,视觉信息以“连续流”的方式持续进入模型,模型实现“边看边理解、必要时主动行动”。这对应的不再是“更好的人机对话体验”,

查看原文 →qbitai.com