AI 资讯量子位·2 小时前

杭州团队率先实现全球首个端侧流式多模态大模型

原标题：CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

速览

杭州团队在VLM-R1之后再次取得突破，发布了全球首个端侧流式多模态大模型。该成果标志着多模态AI技术正式向端侧部署迈进，显著提升了实时交互能力。这一进展有望推动多模态大模型在移动设备等终端的广泛应用。

AI 深度解读

背景

CVPR 2026 刚刚落幕，视觉语言模型（VLM）已成为该会议中增长最快的研究方向之一。数据显示，VLM 及相关多模态论文占比从去年的 4.9% 激增至 10.6%，几乎翻倍。在这一背景下，行业关注点正从单纯的“看图说话”转向更复杂的物理世界交互，特别是实时感知（Streaming）和精准定位（Grounding）。

杭州 AI 公司 Om AI 在此时发布了全球首个面向物理世界的端侧流式多模态模型系列——VLX。这是继去年推出全网爆火的开源项目 VLM-R1（首个将 DeepSeek R1 强化学习范式引入 VLM 的项目）后，Om AI 在视觉语言领域的又一次重大突破。VLX 旨在解决传统云端模型在机器人、无人机等具身智能场景中延迟高、资源受限的问题，通过“端侧原生”设计，打通从感知到行动的完整闭环。

核心内容

VLX 系列模型由三款子模型组成：VLX-Flow、VLX-Seek 和 VLX-Go。它们共享同一基座，在同一条视频流上协作，构成了“感知 → 定位 → 行动”的能力闭环。

1. VLX-Flow：实时流式感知（看见） 传统视频模型通常将视频切帧进行离线理解，计算成本高且易丢失上下文。VLX-Flow 采用流式处理机制，让画面像水流一样持续输入。

技术原理：使用 Linear Attention 替代标准 Attention，结合双层记忆机制和增量编码。
优势：模型无需反复重算历史帧，也不会因上下文增长导致显存爆炸。它能在视频播放过程中实时更新对环境的认知，实现低延迟响应，甚至能主动发起交互。

2. VLX-Seek：精准定位（看清） 通用 VLM 擅长高层语义理解，但在精确定位和开放词汇检测上表现有限。VLX-Seek 解决了“知道物体在哪”的问题。

技术原理：摒弃传统的自回归坐标预测方式，改用 Region Token（区域标记）替代坐标生成。先生成候选区域，再进行检索和匹配，将定位过程转化为“选区域”。
优势：大幅降低模型规模和端侧部署成本。即使模型规模较小，也能在开放词汇检测、细粒度定位和实时跟踪任务上保持稳定表现，3B 参数规模即可达到甚至超越更大规模通用模型的效果。

3. VLX-Go：行动决策（行动） 理解环境后，模型需转化为实际动作。VLX-Go 负责将感知和定位结果转化为机器人可执行的短时航点。

技术原理：以单目视频、历史视觉记忆和自然语言指令为输入，直接预测未来一小段时间的运动轨迹。结合离线轨迹学习和在线强化学习，在仿真闭环中修正策略。
优势：采用轻量级的短时航点预测方案，仅用 0.6B 参数即可实现实时运动规划。相比复杂的长链路规划，它更适合端侧实时控制，能在目标跟随、导航和动态避障中保持稳定。

4. 端侧原生架构（Day 1 端侧设计） VLX 并非将云端大模型压缩后部署到端侧，而是从第一天起就针对端侧算力约束重新设计。

设计理念：模型架构、推理方式和部署链路均围绕实时视频流和端侧设备优化，追求“小而准”而非“大而全”。
性能表现：Flow 处理单路视频最快仅需 0.06 秒；Go 以约十分之一的参数规模取得优于更大模型的导航表现。这种设计使得 VLX 能够真正运行在手机、无人机和机器人等资源受限设备上，满足低延迟、低功耗和持续感知的需求。

关键要点

全球首创：VLX 是全球首个面向物理世界的端侧流式多模态模型系列，首次将持续感知、精准定位和行动决策整合为可长期连续运转的系统。
三大子模型协同：
- VLX-Flow：解决实时流式感知，通过 Linear Attention 和双层记忆机制实现低延迟、无显存爆炸的持续视频理解。
- VLX-Seek：解决精准定位，通过 Region Token 机制实现高效、低成本的开放词汇检测和细粒度定位。
- VLX-Go：解决行动决策，通过短时航点预测和强化学习，将视觉信息直接转化为机器人运动指令。
端侧原生（Day 1 Native）：不同于“云端训练+端侧压缩”的传统路径，VLX 从架构设计之初就针对端侧算力优化，实现了“小而准”的高效部署。
技术突破：
- Flow 单路视频处理延迟低至 0.06 秒。
- Seek 在 3B 参数规模下性能超越更大模型。
- Go 仅用 0.6B 参数即可实现实时运动规划。
团队背景：Om AI 创始人赵天成（CMU 博士、吴文俊奖得主）带领团队，拥有深厚的学术和产业背景。此前发布的 VLM-R1 曾登顶 GitHub 全球趋势榜，验证了团队在 VLM 领域的研发实力。

意义与影响

VLX 的发布标志着多模态 AI 从“云端知识问答”向“物理世界实时交互”的重要转变。

重新定义 VLM 角色：VLM 不再仅仅是 LLM 的一个能力模块，而是成为具身智能、空间智能等领域的新一代基础设施。它要求模型具备持续感知、精准定位和驱动行动的能力，而不仅仅是生成文本。
解决具身智能落地痛点：真实物理世界是连续、动态且资源受限的。VLX 的端侧原生设计解决了云端模型在机器人和无人机应用中存在的延迟高、网络依赖强、隐私风险大等问题，为具身智能的大规模商业化落地提供了可行的技术路径。
开辟新的技术路线：VLX 证明了“为端侧重新长出一套模型”比“裁剪云端模型”更具优势。这种“小而准”的设计哲学，可能成为未来端侧 AI 模型开发的重要范式。
推动行业分工细化：云端模型将继续追求更强的推理和知识能力，而端侧模型将专注于低延迟、低功耗和实时执行。两者形成互补，共同构建完整的 AI 生态。

Om AI 通过 VLX 展示了其从“看图说话”到“持续感知、精准定位、真实行动”的技术演进路线，为端侧 AI 时代提供了一套原生的模型基础设施。

查看原文 →qbitai.com

杭州团队率先实现全球首个端侧流式多模态大模型

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐