AI 资讯量子位·1 小时前

世界模型新用途：不做选手去当裁判

原标题：世界模型的新用途：不做选手，去当裁判

速览

世界模型通过训练在复杂环境中学习交互模式，可模拟整个游戏流程，而非仅产生选手行动。研究团队让模型独立运行比赛，并作为裁判员判定胜负与规则执行。相比人类裁判，这种AI裁判方式显著减少人为误差，适合于模拟竞技、博弈论研究等前沿场景。

AI 深度解读

背景

当前具身智能赛道都在全力卷世界模型，抢占机器人的“大脑”。然而，最近发布的名为「Uranus」的世界模型却走了一条完全不同的路径：它不做具身智能的大脑，而是定位为机器人开发的基础设施，市面上鲜有同类产品。

这一产品由地瓜机器人开发而来。该公司原本来自地平线分拆，业务定位是机器人软硬件通用底座提供商，强调的是“卖铲”生意，而不是专注做大脑。

地瓜机器人团队认为，具身智能的核心痛点并非大脑本身，而是两个关键问题：一是benchmark评测基准公信力不足，二是仿真训练中的sim-to-real gap。

Uranus正是针对这两个痛点设计的。它既能作为公正的“裁判”，客观评测VLA（Visual Language Action）模型和世界模型，又能作为机器人训练的“场地”，支持manipulation（操作）领域的强化学习和开发流程。

核心内容

Uranus的第一个用途是当具身模型的裁判，即benchmark评测。

机器人常用的benchmark分为两种类型。第一种是真机评测：将训练好的模型部署到真实机械臂上，在固定场景和任务中反复运行数十上百次，统计成功率。该方式效率低，验证一个模型需要人工守在机器旁反复重置环境，成本高且慢；同时难以复现，因为每次物体摆放、光照变化等细节都难以精确控制，即使一篇论文发表，其他实验室也很难复制结果。

第二种是仿真评测：在虚拟环境中运行任务。该方式速度快、成本低、易复现，但存在严重sim-to-real gap：仿真中分数很高，一搬到真机就要大幅打折，分数与真实能力无法匹配。

Uranus采用的是第三条路线：用户训练模型后，Uranus根据模型输出的动作，逐步生成环境反馈，得到成功率、轨迹偏差等客观指标。其优势在于，迭代效率远高于真机评测，可精确控制变量并稳定复现；评测分数与模型在真实场景中的实际能力呈正相关，sim-to-real gap显著缩小。

地瓜机器人团队目标是将其打造成业内最有公信力的benchmark之一。算法副总裁隋伟指出，目前很多benchmark榜单存在争议，因为学术指标与真实应用之间存在距离，数据未必充分反映真实场景复杂性。而Uranus不会刻意避免“刷榜”，关键在于分数必须有意义，能够真正匹配模型的实际能力。

Uranus的第二个用途是支持机器人训练的仿真器，主要应用于manipulation领域。传统物理仿真器的缺点包括：贵、慢、效率低，手工搭建新场景需数天至数周的时间；渲染画面不够真实，导致sim-to-real gap；部分仿真器为简化处理，会粗暴简化物理规则，甚至违反能量守恒。

Uranus的创新做法是从数据中直接学习：机器人执行动作后，下一帧画面会变成什么。它无需先手工还原3D世界，而是给定几帧参考图像、机器人关节状态、相机参数和文本描述，就能生成对应场景。画面越逼真，gap就越小。团队表示，Uranus生成的视频肉眼基本无法区分是实拍还是生成的。

核心技术在于帧级闭环：Uranus一帧一帧生成视频，而非一次性生成整段。普通视频生成模型（如Seedance）按剧本拍摄电影，中间无法中断；但机器人必须实时交互——模型看到当前画面输出动作，动作执行后环境变化，机器人再根据新画面输出下一步，循环必须无缝进行。只要中间断开，强化学习和评测就无法完成。

Uranus每次仅生成下一帧，新帧进入历史窗口，与下一步动作一起作为模型输入。人可随时接管，改变指令，让轨迹继续生成。这类似实时交互游戏，但帧级闭环面临误差累积挑战：每步微小误差会累积，数十步后画面可能糊掉。

Uranus突破了这一瓶颈：训练时仅见过2秒短片段，但在推理时可稳定运行60秒，且画质全程保持稳定。

另一个核心能力是跨具身零样本泛化：用户训练模型时可能使用不同硬件，Uranus支持G1人形机器人、Franka协作臂，未来将增加更多本体。这打破了“只能用特定本体”的局限。

但需注意，Uranus目前仅支持manipulation训练，不支持locomotion（运动控制），因为模态仅含action、图像和语言，尚未添加触觉、摩擦力、电机信号等，无法支撑运动仿真。团队认为，补全这些模态的关键是数据，而当前数据普遍不成熟。

地瓜机器人团队选择做基础设施而非大脑，有反直觉之处：现在许多世界模型将视频生成作为辅助loss，但学术界通常不评估生成视频质量本身。Uranus团队认为，先将视频生成质量做好，对下游动作生成训练有更大帮助。

此外，做基础设施比做大脑更难。做大脑有清晰学术成果，而做仿真器缺乏成功论文或范式。技术上需啃下三块硬骨头：像素级生成（需真实图像输入，仅latent空间预测不够）；跨视角一致性（多路相机需同时对齐）；帧级闭环（每步动作反馈都需无缝衔接）。

许多机器人公司不愿开发基础设施，因为普遍缺算力，视频训练吃资源且不确定性高。而地瓜机器人将自己定位为机器人界的“英伟达”，提供芯片方案、开发工具、训练和部署平台。Uranus可嵌入其生态，一头接评测，一头接强化学习训练，正好覆盖开发流程的两大核心环节。

项目开发中，三分之二的精力花在了“脏活”上。首先是infra（基础设施）：存储设计分层方案以应对PB量级数据；算力协调跨越云服务商，解决单一云商无法满足需求；高分辨率长时间视频需多卡并行计算并聚合；从存储选择到网络连接、上层热存储加速，全程重新优化。团队感受是，语言模型领域已形成“无infra勿谈大模型”的共识，但具身行业对infra重视程度还不够。

其次是数据：Uranus主要用开源数据训练，量级几百小时，但存在丢帧、动作与视频不匹配、相机标定缺失等问题。数据清洗是关键，算法虽有提升，但数据工程效果更好。目前数据远未饱和，计划下半年扩到几千小时，明年达到数万到十几万小时。

隋伟认为，单纯堆时长意义不大，同质化数据作用有限；数据质量和多样性决定上限。自动驾驶领域讲“clip数量”，而非单纯时长。具身行业模型决定下限，数据决定上限：仅靠相机标定对齐、动作画面关系对齐、筛出脏数据，就能提升几十个百分点成功率。

关键要点

Uranus定位为机器人开发基础设施，针对benchmark公信力不足和sim-to-real gap两大痛点，不做大脑而做裁判与场地。
真机评测效率低、难复现；仿真评测快但存在gap；Uranus通过动作驱动帧生成反馈，实现可控、可复现且分数与真实能力正相关。
帧级闭环是核心技术：每次仅生成下一帧，确保实时交互；突破误差累积后可稳定运行60秒。
支持跨具身泛化（G1人形机器人、Franka等），但仅限manipulation训练，尚未加触觉等模态。
视频生成质量为基础设施核心，先做好视频生成对动作训练有更大帮助。
项目耗时三分之二在infra（存储、算力多卡并行、云协调）和数据清洗（丢帧修正、动作对齐、标定）。
团队计划数据扩充至数万小时级别，强调质量与多样性优于数量，数据工程是当前瓶颈。
地瓜机器人自定位为机器人“英伟达”，提供底座生态，Uranus嵌入其训练与评测流程。

意义与影响

Uranus的发布填补了机器人基础设施领域的空白，为具身智能发展提供了更客观、高效的评测与训练平台。它将推动benchmark从“刷榜”向“有意义分数”转变，提升模型实际应用能力，同时降低sim-to-real gap，加速强化学习训练效率。

地瓜机器人将基础设施与生态深度融合的模式，类似于英伟达在AI领域的定位，可能带动更多机器人公司重视软硬件底座建设，降低行业“缺算力、不确定性高”的顾虑，加速具身智能从实验室走向工业化应用。

长期来看，Uranus的帧级闭环与跨具身泛化能力，将帮助不同硬件上的世界模型训练与评测，缩小学术与工业的差距；同时，数据工程的重要性凸显，未来具身行业可能更多聚焦高质量、多样化数据采集与清洗，而非单纯堆模型参数。

这一变化将对机器人开发流程产生深远影响：评测更公正、训练更稳定、迭代更快，最终助力具身智能技术更快落地，推动通用机器人从“卖铲”向“卖脑”迈进。

查看原文 →qbitai.com

世界模型新用途：不做选手 去当裁判

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐

世界模型新用途：不做选手去当裁判