τ0-WM:基于17800小时真机数据的最大规模开源具身世界模型
速览
τ0-WM是一款新发布的开源具身世界模型,标志着该领域最大规模的预训练成果。该模型基于17800小时的真实机器人运行数据进行训练,显著提升了模型在物理交互中的表现。这一进展为具身智能的发展提供了重要的开源基础。
AI 深度解读
背景
具身智能(Embodied AI)领域在过去两年中热度持续攀升,但行业长期面临一个核心瓶颈:高质量数据的获取与规模化应用。传统的数据金字塔结构中,互联网视频数据虽量大但缺乏动作标签,仿真数据存在 Sim-to-Real 的鸿沟,而最宝贵的真机遥操作数据因采集成本高、效率低,被视为“奢侈品”,通常仅用于模型微调阶段,难以直接用于大规模预训练。
随着数据采集基础设施的完善,这一格局正在被打破。上海创智学院副教授、智元机器人(Agibot)首席科学家罗剑岚带领团队,发布了一款名为 τ0-World Model (τ0-WM) 的开源具身世界模型。该模型不仅刷新了开源预训练具身世界模型的数据规模纪录,更通过引入“测试时计算”机制,重新定义了机器人在复杂操作任务中的决策范式,标志着真机数据正式从“后训练耗材”转变为“预训练燃料”。
核心内容
1. 模型概况与数据规模 τ0-WM 是一个参数量为 5B 的开源具身世界模型,其预训练数据总量高达约 3 万小时,是目前全球开源具身世界模型中规模最大的。其数据构成打破了传统认知:
- 真机遥操作数据(17,800 小时): 占比超过一半,是绝对主力。数据来自双臂机器人及多视角采集,动作空间与真实部署环境完全对齐,提供了最核心的动作监督信号。
- UMI 数据(6,500 小时): UMI (Universal Manipulation Interface) 是一种不依赖特定机器人平台的数据采集方式。这类数据动作空间虽不完全等同于真机,但覆盖了更丰富的物体种类和操作场景,主要用于补充“行为多样性”。
- 人类第一视角 Ego-Centric 数据(3,000 小时): 采集成本低、覆盖范围广,包含大量长尾交互行为。由于缺乏机器人动作标签,仅用于训练视频分支,帮助模型学习物体运动和环境变化规律。
为解决不同模态和动作空间数据的统一训练问题,团队采用了 Modality-specific supervision masks(模态特定监督掩码) 技术:对有动作标签的数据同时训练视频与动作分支,对无动作标签的数据则 Mask 掉动作部分,仅训练视觉分支。
2. 核心机制:测试时计算 (Test-Time Computation) τ0-WM 最大的创新在于引入了“慢思考”机制,即测试时计算。不同于传统端到端策略“看见即行动”的反应式范式,τ0-WM 让机器人在执行前先在内部“虚拟沙盘”中并行想象多种可能的未来,通过排序和修正选出最优方案。其在线推理分为三步:
- 提议 (Proposal): 视频动作模型 (VAM) 基于当前多视角观测、语言指令及机器人状态,采样多组候选动作,并生成对应的模糊未来画面。
- 推演 (Simulation): 动作条件视频模拟器针对每组候选动作,生成多视角的未来画面。多视角设计旨在解决真实操作中正面视角易被遮挡的问题,确保模型能“脑补”侧面、顶部等视角的状态。
- 评估与修正 (Evaluation & Rectification):
- 首先使用 RCS (Re-denoising Consistency Score) 对动作打分:通过重新加噪并去噪,观察重建误差,误差越小代表动作越符合高质量分布。
- 若最优动作分数仍不足,触发 LAR (Low-quality Action Rectification) 机制:将候选动作送入模拟器预测未来状态,挑选任务推进效果最好的未来画面,让 VAM 基于该“最优未来”重新生成动作。
3. 技术架构 τ0-WM 由两个共享视频扩散 backbone 的组件驱动:
- VAM (Video Action Model): 基于 Wan2.2-5B 视频生成模型,负责输出未来视频 latent 和动作 chunk。
- 动作条件视频模拟器: 专门负责评估未来状态和任务进度。
4. 实验验证 在从未见过的长程精细操作任务(如抽纸巾进盒、捡笔进盒)中,团队采用了严格的单次机会评测标准。结果显示:
- 裸策略平均成功率仅为 43%。
- 加入 RCS 动作筛选后提升至 50%。
- 叠加 LAR 模拟器修正后,最终达到 60%。
- 在更难的 Pen→Box 任务中,成功率从 30% 大幅提升至 50%。
- 对比其他测试时引导方法,τ0-WM 的 60% 成功率显著优于 Classifier-Free Guidance (20%) 和 Action Coherence Guidance (38%)。这证明 τ0-WM 评估的是“动作完成后的未来世界状态及任务推进效果”,而非仅仅关注动作空间内部的一致性。
关键要点
- 数据范式反转: τ0-WM 首次将大规模真机遥操作数据(1.78万小时)用于预训练而非仅用于微调,打破了真机数据昂贵且难以 Scaling 的行业共识。
- 多源数据融合: 通过模态特定监督掩码,成功将真机数据、UMI 数据和无标签 Ego-Centric 数据统一纳入同一个预训练体系,实现了数据价值的最大化。
- 引入“慢思考”决策: 利用测试时计算(Test-Time Computation),让机器人在行动前进行多次虚拟推演、评估和修正,显著提升了复杂长程任务的成功率。
- 评估维度升级: 从关注“动作连贯性”转向关注“未来状态与任务推进”,通过 RCS 和 LAR 机制,确保动作能真正带来预期的环境变化。
- 数据飞轮闭环: 智元机器人通过 SOP(规模化采集基础设施)和 LWD(大规模强化学习后训练),构建了“预训练—真机部署—数据回流—再预训练”的完整闭环,使真机数据成为模型进化的核心燃料。
意义与影响
τ0-WM 的发布不仅是技术参数的突破,更是具身智能数据路线的一次重要转向。
首先,它证明了真机数据具备 Scaling 的可行性。过去,行业普遍认为真机数据太贵、太少,只能作为微调的点缀。τ0-WM 的成功表明,随着采集基础设施(如 SOP)的成熟,真机数据可以成为预训练的基石,从而大幅提升模型在真实物理世界中的泛化能力和操作精度。
其次,它重新定义了世界模型在推理阶段的价值。许多世界模型仅在训练阶段预测未来,而在部署时为了速度将其移除。τ0-WM 坚持在推理阶段保留“显式未来想象”,并将其作为决策的核心环节。这种“三思而后行”的机制,对于解决接触密集、长程跨度或存在严重遮挡的复杂操作任务至关重要,为机器人从“条件反射”式的自动化迈向“认知规划”式的智能化提供了新路径。
最后,这一进展加速了具身智能数据飞轮的跑通。智元机器人通过整合数据采集、后训练强化学习和预训练,形成了一套自增强的生态系统。这不仅提升了 τ0-WM 的性能,也为整个行业提供了可参考的范式:即通过构建高质量、大规模的真实世界数据闭环,来驱动具身智能模型的持续进化。随着 τ0-WM 的开源,社区有望在此基础上进一步探索低成本、高效率的具身智能解决方案。
