← 返回信息流
AI 资讯量子位·6 天前

全球首个“事件级预测”具身智能世界模型发布

原标题:刚刚,全球⾸个“事件级预测”具身智能世界模型来了!

速览

该模型是全球首个具备“事件级预测”能力的具身智能世界模型。它标志着AI从传统的按帧学习动作,进化为按“事件”理解世界。这一突破将显著提升机器人在复杂动态环境中的预测与决策能力。

AI 深度解读

背景

当前具身智能(Embodied AI)领域的主流视觉-语言-动作(VLA)模型,在训练和推理上普遍采用“按帧预测”的工程化路径。这种模式将机器人的连续动作切割成固定时间窗口内的离散帧,要求模型逐帧预测下一时刻的状态(如0.1秒后手的位置、0.2秒后的位置等)。

然而,这种基于时间帧的预测方式存在显著缺陷:

  1. 语义缺失:模型容易陷入对微观物理细节(如手指移动毫米数)的记忆,而忽略了高层语义目标(如“抓住杯子”)。
  2. 泛化能力弱:一旦场景、物体或节奏发生微小变化,模型往往因无法匹配预设的固定时间窗口而失效。
  3. 模态对齐困难:文本(高层语义)、视觉(连续高维观察)和动作(受物理强约束)在高维空间中具有不同的流形几何和时间尺度,强行对齐容易导致预训练表示偏离先验几何,使得真机表现远低于底座VLM的理论水平。

针对上述痛点,自变量机器人团队提出了全球首个“事件级预测”具身智能世界模型——WALL-WM,旨在从底层逻辑上重构机器人理解世界和执行动作的方式。

核心内容

WALL-WM 的核心创新在于将世界模型的预测单位从“时间帧”转换为“语义事件”(Event-Centric)。模型不再询问“0.1秒后世界是什么样”,而是直接想象“抓住杯子那一刻的世界状态”,并基于此想象同步生成抵达该状态的动作轨迹。这一转变使得模型能够跳过中间冗余帧,直接关注具有物理和语义意义的动作边界。

1. 三层核心架构

WALL-WM 构建了一套从感知到控制的路径重构系统,分为三个层级:

  • 事件指令入口:接收高层任务描述(如“抓起杯子”、“放入篮子”),明确下一步的语义目标。
  • 事件世界模型:基于事件指令预演世界变化,包括物体运动、场景改变及机械臂的参与方式。
  • 多视角时空融合:整合头部相机(全局)和腕部相机(细节)等多视角信息,通过几何感知机制统一空间理解,消除视角偏差。

2. 双推理模式与模型解耦

  • 双模式推理:WALL-WM 共享同一套权重,支持两种推理模式:
    • 事件模式(Event Mode):适用于已有上层规划器的场景,根据事件描述输出长度可变的动作序列,贴合语义自然展开。
    • 统一模式(Unified Mode):适用于无外部规划器的实时闭环控制,VLM结合视觉输入在线生成推理,输出固定长度动作块以维持稳定控制频率。
  • 视频与动作模型分工:模型未将视频模型直接改造为动作模型,而是采用“拆开生长”策略。视频模型保留互联网视频训练出的动态先验,负责理解世界变化;动作模型从零初始化,专门学习将视觉变化翻译为机器人轨迹。两者通过单向耦合,确保动作能力增长不破坏视频基座的世界理解能力。

3. 几何感知的多视角融合

为解决多摄像头视角不对齐问题,WALL-WM 引入了两个关键机制:

  • 视锥掩码(Frustum Mask):利用相机标定信息,判断图像块在三维空间中是否可能观测到同一区域,切断物理上不可能存在的跨视角关联,确保注意力符合真实几何关系。
  • 管状掩码(Tubular Mask):随机遮蔽单一视角的连续时空区域,迫使模型从其他相机寻找线索,强化跨视角线索依赖能力。 配合免标定的相机旋转位置编码,支持大规模混合训练。

4. 阶梯式思维链解码

为平衡复杂任务决策的可解释性与实时控制的低延迟,WALL-WM 提出 Staircase Layer-Relay CoT Decoding

  • 将传统的串行逐Token解码改造为“低层只跑一次,高层阶梯式展开”。
  • 底层抽取共用推理状态,高层并行处理多个思维Token。
  • 生成的连续CoT Latent可通过冻结LLM还原为文本轨迹,既保留了可解释性,又大幅降低了推理延迟。

5. 系统工程与数据金字塔

WALL-WM 的成功依赖于从数据到部署的全栈重构:

  • 数据金字塔:底层为百万级网络通用视频(补足开放世界先验),中层为人类动作/第一视角/公开机器人数据,顶层为真机接管与纠错数据。数据层级越往上越贴近真机,越往下越接近开放世界先验。
  • 层级化标注:将长轨迹拆分为任务、子任务、动作、片段四层,通过双聚类采样,使语言分布和视觉-语言联合分布更均衡,提升长尾样本的训练效果。
  • 训练与部署优化:采用分布式 Muon 优化器(DMuon)提升收敛稳定性;通过多事件打包降低计算浪费;部署阶段使用蒸馏减少去噪步数,并采用 FP8 量化降低显存和推理成本,满足实时控制需求。

关键要点

  • 范式转变:从“按帧预测”转向“按事件预测”,以语义事件边界替代固定时间窗口,更贴合物理世界的自然动作结构。
  • 模态解耦:视频模型与动作模型分离训练,视频模型保留动态先验,动作模型专注轨迹翻译,避免模态对齐带来的几何偏差。
  • 几何感知融合:通过视锥掩码和管状掩码机制,解决多视角相机在三维空间中的对齐问题,提升空间理解的准确性。
  • 高效解码:采用阶梯式思维链解码(Staircase CoT),在保留推理可解释性的同时,显著降低多步决策的延迟。
  • 数据分层策略:构建从通用视频到真机数据的金字塔结构,并通过四级层级标注优化数据分布,增强模型对稀有指令和长尾场景的泛化能力。
  • 双模式灵活部署:支持“事件模式”(变长动作,接规划器)和“统一模式”(固定长度,实时闭环),同一权重适配不同应用场景。
  • 性能领先:在 Embodied Video Generation、3D Awareness 及真机 Core15 L1 基准测试中,WALL-WM 在运动质量、语义一致性、物理合理性及任务完成率上均显著优于 Wan2.1、π0.5、DreamZero 等现有模型。

意义与影响

WALL-WM 的发布标志着具身智能从“Demo演示”向“真实部署”迈出了关键一步。其核心价值在于提供了一套自洽的工程化范式,解决了长期困扰行业的泛化难题。

  1. 提升泛化鲁棒性:通过以“事件”为基本单位,模型能够适应语言、物体、场景甚至本体结构的变更。机器人不再依赖固定的时间节奏,而是根据事件边界判断当前状态和下一步变化,从而在复杂多变的物理环境中表现出更强的适应能力。
  2. 优化资源效率:通过视频与动作模型的解耦、几何感知的多视角融合以及高效的解码和量化技术,WALL-WM 在保持高性能的同时,降低了训练成本和推理延迟,使大模型在机器人实时控制中更具可行性。
  3. 推动行业标准:WALL-WM 证明了“事件级建模”的有效性,为后续具身智能研究提供了新的思路。它强调物理世界的真实任务是由自然衔接的事件组成的,这一理念有助于行业从单纯追求动作流畅度,转向追求对世界变化的深层理解、行动的组织能力以及稳定的泛化性能。

正如论文引言所引柏拉图《斐德罗篇》所言:“依乎天理,因其固然。” WALL-WM 通过顺应物理世界的自然事件结构,为具身智能找到了一条更自然、更稳健的发展路径。

查看原文 →qbitai.com