AI 资讯量子位·4 天前

τ0-WM：基于17800小时真机数据的最大规模开源具身世界模型

原标题：τ0-WM：最大规模预训练的开源具身世界模型来了

速览

τ0-WM是一款新发布的开源具身世界模型，标志着该领域最大规模的预训练成果。该模型基于17800小时的真实机器人运行数据进行训练，显著提升了模型在物理交互中的表现。这一进展为具身智能的发展提供了重要的开源基础。

AI 深度解读

背景

具身智能（Embodied AI）领域在过去两年中热度持续攀升，但行业长期面临一个核心瓶颈：高质量数据的获取与规模化应用。传统的数据金字塔结构中，互联网视频数据虽量大但缺乏动作标签，仿真数据存在 Sim-to-Real 的鸿沟，而最宝贵的真机遥操作数据因采集成本高、效率低，被视为“奢侈品”，通常仅用于模型微调阶段，难以直接用于大规模预训练。

随着数据采集基础设施的完善，这一格局正在被打破。上海创智学院副教授、智元机器人（Agibot）首席科学家罗剑岚带领团队，发布了一款名为 τ0-World Model (τ0-WM) 的开源具身世界模型。该模型不仅刷新了开源预训练具身世界模型的数据规模纪录，更通过引入“测试时计算”机制，重新定义了机器人在复杂操作任务中的决策范式，标志着真机数据正式从“后训练耗材”转变为“预训练燃料”。

核心内容

1. 模型概况与数据规模 τ0-WM 是一个参数量为 5B 的开源具身世界模型，其预训练数据总量高达约 3 万小时，是目前全球开源具身世界模型中规模最大的。其数据构成打破了传统认知：

真机遥操作数据（17,800 小时）： 占比超过一半，是绝对主力。数据来自双臂机器人及多视角采集，动作空间与真实部署环境完全对齐，提供了最核心的动作监督信号。
UMI 数据（6,500 小时）： UMI (Universal Manipulation Interface) 是一种不依赖特定机器人平台的数据采集方式。这类数据动作空间虽不完全等同于真机，但覆盖了更丰富的物体种类和操作场景，主要用于补充“行为多样性”。
人类第一视角 Ego-Centric 数据（3,000 小时）： 采集成本低、覆盖范围广，包含大量长尾交互行为。由于缺乏机器人动作标签，仅用于训练视频分支，帮助模型学习物体运动和环境变化规律。

为解决不同模态和动作空间数据的统一训练问题，团队采用了 Modality-specific supervision masks（模态特定监督掩码） 技术：对有动作标签的数据同时训练视频与动作分支，对无动作标签的数据则 Mask 掉动作部分，仅训练视觉分支。

2. 核心机制：测试时计算 (Test-Time Computation) τ0-WM 最大的创新在于引入了“慢思考”机制，即测试时计算。不同于传统端到端策略“看见即行动”的反应式范式，τ0-WM 让机器人在执行前先在内部“虚拟沙盘”中并行想象多种可能的未来，通过排序和修正选出最优方案。其在线推理分为三步：

提议 (Proposal)： 视频动作模型 (VAM) 基于当前多视角观测、语言指令及机器人状态，采样多组候选动作，并生成对应的模糊未来画面。
推演 (Simulation)： 动作条件视频模拟器针对每组候选动作，生成多视角的未来画面。多视角设计旨在解决真实操作中正面视角易被遮挡的问题，确保模型能“脑补”侧面、顶部等视角的状态。
评估与修正 (Evaluation & Rectification)：
- 首先使用 RCS (Re-denoising Consistency Score) 对动作打分：通过重新加噪并去噪，观察重建误差，误差越小代表动作越符合高质量分布。
- 若最优动作分数仍不足，触发 LAR (Low-quality Action Rectification) 机制：将候选动作送入模拟器预测未来状态，挑选任务推进效果最好的未来画面，让 VAM 基于该“最优未来”重新生成动作。

3. 技术架构 τ0-WM 由两个共享视频扩散 backbone 的组件驱动：

VAM (Video Action Model)： 基于 Wan2.2-5B 视频生成模型，负责输出未来视频 latent 和动作 chunk。
动作条件视频模拟器： 专门负责评估未来状态和任务进度。

4. 实验验证 在从未见过的长程精细操作任务（如抽纸巾进盒、捡笔进盒）中，团队采用了严格的单次机会评测标准。结果显示：

裸策略平均成功率仅为 43%。
加入 RCS 动作筛选后提升至 50%。
叠加 LAR 模拟器修正后，最终达到 60%。
在更难的 Pen→Box 任务中，成功率从 30% 大幅提升至 50%。
对比其他测试时引导方法，τ0-WM 的 60% 成功率显著优于 Classifier-Free Guidance (20%) 和 Action Coherence Guidance (38%)。这证明 τ0-WM 评估的是“动作完成后的未来世界状态及任务推进效果”，而非仅仅关注动作空间内部的一致性。

关键要点

数据范式反转： τ0-WM 首次将大规模真机遥操作数据（1.78万小时）用于预训练而非仅用于微调，打破了真机数据昂贵且难以 Scaling 的行业共识。
多源数据融合： 通过模态特定监督掩码，成功将真机数据、UMI 数据和无标签 Ego-Centric 数据统一纳入同一个预训练体系，实现了数据价值的最大化。
引入“慢思考”决策： 利用测试时计算（Test-Time Computation），让机器人在行动前进行多次虚拟推演、评估和修正，显著提升了复杂长程任务的成功率。
评估维度升级： 从关注“动作连贯性”转向关注“未来状态与任务推进”，通过 RCS 和 LAR 机制，确保动作能真正带来预期的环境变化。
数据飞轮闭环： 智元机器人通过 SOP（规模化采集基础设施）和 LWD（大规模强化学习后训练），构建了“预训练—真机部署—数据回流—再预训练”的完整闭环，使真机数据成为模型进化的核心燃料。

意义与影响

τ0-WM 的发布不仅是技术参数的突破，更是具身智能数据路线的一次重要转向。

首先，它证明了真机数据具备 Scaling 的可行性。过去，行业普遍认为真机数据太贵、太少，只能作为微调的点缀。τ0-WM 的成功表明，随着采集基础设施（如 SOP）的成熟，真机数据可以成为预训练的基石，从而大幅提升模型在真实物理世界中的泛化能力和操作精度。

其次，它重新定义了世界模型在推理阶段的价值。许多世界模型仅在训练阶段预测未来，而在部署时为了速度将其移除。τ0-WM 坚持在推理阶段保留“显式未来想象”，并将其作为决策的核心环节。这种“三思而后行”的机制，对于解决接触密集、长程跨度或存在严重遮挡的复杂操作任务至关重要，为机器人从“条件反射”式的自动化迈向“认知规划”式的智能化提供了新路径。

最后，这一进展加速了具身智能数据飞轮的跑通。智元机器人通过整合数据采集、后训练强化学习和预训练，形成了一套自增强的生态系统。这不仅提升了 τ0-WM 的性能，也为整个行业提供了可参考的范式：即通过构建高质量、大规模的真实世界数据闭环，来驱动具身智能模型的持续进化。随着 τ0-WM 的开源，社区有望在此基础上进一步探索低成本、高效率的具身智能解决方案。

查看原文 →qbitai.com

τ0-WM：基于17800小时真机数据的最大规模开源具身世界模型

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐