世界模型新用途:不做选手 去当裁判
速览
世界模型通过训练在复杂环境中学习交互模式,可模拟整个游戏流程,而非仅产生选手行动。研究团队让模型独立运行比赛,并作为裁判员判定胜负与规则执行。相比人类裁判,这种AI裁判方式显著减少人为误差,适合于模拟竞技、博弈论研究等前沿场景。
AI 深度解读
背景
当前具身智能赛道都在全力卷世界模型,抢占机器人的“大脑”。然而,最近发布的名为「Uranus」的世界模型却走了一条完全不同的路径:它不做具身智能的大脑,而是定位为机器人开发的基础设施,市面上鲜有同类产品。
这一产品由地瓜机器人开发而来。该公司原本来自地平线分拆,业务定位是机器人软硬件通用底座提供商,强调的是“卖铲”生意,而不是专注做大脑。
地瓜机器人团队认为,具身智能的核心痛点并非大脑本身,而是两个关键问题:一是benchmark评测基准公信力不足,二是仿真训练中的sim-to-real gap。
Uranus正是针对这两个痛点设计的。它既能作为公正的“裁判”,客观评测VLA(Visual Language Action)模型和世界模型,又能作为机器人训练的“场地”,支持manipulation(操作)领域的强化学习和开发流程。
核心内容
Uranus的第一个用途是当具身模型的裁判,即benchmark评测。
机器人常用的benchmark分为两种类型。第一种是真机评测:将训练好的模型部署到真实机械臂上,在固定场景和任务中反复运行数十上百次,统计成功率。该方式效率低,验证一个模型需要人工守在机器旁反复重置环境,成本高且慢;同时难以复现,因为每次物体摆放、光照变化等细节都难以精确控制,即使一篇论文发表,其他实验室也很难复制结果。
第二种是仿真评测:在虚拟环境中运行任务。该方式速度快、成本低、易复现,但存在严重sim-to-real gap:仿真中分数很高,一搬到真机就要大幅打折,分数与真实能力无法匹配。
Uranus采用的是第三条路线:用户训练模型后,Uranus根据模型输出的动作,逐步生成环境反馈,得到成功率、轨迹偏差等客观指标。其优势在于,迭代效率远高于真机评测,可精确控制变量并稳定复现;评测分数与模型在真实场景中的实际能力呈正相关,sim-to-real gap显著缩小。
地瓜机器人团队目标是将其打造成业内最有公信力的benchmark之一。算法副总裁隋伟指出,目前很多benchmark榜单存在争议,因为学术指标与真实应用之间存在距离,数据未必充分反映真实场景复杂性。而Uranus不会刻意避免“刷榜”,关键在于分数必须有意义,能够真正匹配模型的实际能力。
Uranus的第二个用途是支持机器人训练的仿真器,主要应用于manipulation领域。传统物理仿真器的缺点包括:贵、慢、效率低,手工搭建新场景需数天至数周的时间;渲染画面不够真实,导致sim-to-real gap;部分仿真器为简化处理,会粗暴简化物理规则,甚至违反能量守恒。
Uranus的创新做法是从数据中直接学习:机器人执行动作后,下一帧画面会变成什么。它无需先手工还原3D世界,而是给定几帧参考图像、机器人关节状态、相机参数和文本描述,就能生成对应场景。画面越逼真,gap就越小。团队表示,Uranus生成的视频肉眼基本无法区分是实拍还是生成的。
核心技术在于帧级闭环:Uranus一帧一帧生成视频,而非一次性生成整段。普通视频生成模型(如Seedance)按剧本拍摄电影,中间无法中断;但机器人必须实时交互——模型看到当前画面输出动作,动作执行后环境变化,机器人再根据新画面输出下一步,循环必须无缝进行。只要中间断开,强化学习和评测就无法完成。
Uranus每次仅生成下一帧,新帧进入历史窗口,与下一步动作一起作为模型输入。人可随时接管,改变指令,让轨迹继续生成。这类似实时交互游戏,但帧级闭环面临误差累积挑战:每步微小误差会累积,数十步后画面可能糊掉。
Uranus突破了这一瓶颈:训练时仅见过2秒短片段,但在推理时可稳定运行60秒,且画质全程保持稳定。
另一个核心能力是跨具身零样本泛化:用户训练模型时可能使用不同硬件,Uranus支持G1人形机器人、Franka协作臂,未来将增加更多本体。这打破了“只能用特定本体”的局限。
但需注意,Uranus目前仅支持manipulation训练,不支持locomotion(运动控制),因为模态仅含action、图像和语言,尚未添加触觉、摩擦力、电机信号等,无法支撑运动仿真。团队认为,补全这些模态的关键是数据,而当前数据普遍不成熟。
地瓜机器人团队选择做基础设施而非大脑,有反直觉之处:现在许多世界模型将视频生成作为辅助loss,但学术界通常不评估生成视频质量本身。Uranus团队认为,先将视频生成质量做好,对下游动作生成训练有更大帮助。
此外,做基础设施比做大脑更难。做大脑有清晰学术成果,而做仿真器缺乏成功论文或范式。技术上需啃下三块硬骨头:像素级生成(需真实图像输入,仅latent空间预测不够);跨视角一致性(多路相机需同时对齐);帧级闭环(每步动作反馈都需无缝衔接)。
许多机器人公司不愿开发基础设施,因为普遍缺算力,视频训练吃资源且不确定性高。而地瓜机器人将自己定位为机器人界的“英伟达”,提供芯片方案、开发工具、训练和部署平台。Uranus可嵌入其生态,一头接评测,一头接强化学习训练,正好覆盖开发流程的两大核心环节。
项目开发中,三分之二的精力花在了“脏活”上。首先是infra(基础设施):存储设计分层方案以应对PB量级数据;算力协调跨越云服务商,解决单一云商无法满足需求;高分辨率长时间视频需多卡并行计算并聚合;从存储选择到网络连接、上层热存储加速,全程重新优化。团队感受是,语言模型领域已形成“无infra勿谈大模型”的共识,但具身行业对infra重视程度还不够。
其次是数据:Uranus主要用开源数据训练,量级几百小时,但存在丢帧、动作与视频不匹配、相机标定缺失等问题。数据清洗是关键,算法虽有提升,但数据工程效果更好。目前数据远未饱和,计划下半年扩到几千小时,明年达到数万到十几万小时。
隋伟认为,单纯堆时长意义不大,同质化数据作用有限;数据质量和多样性决定上限。自动驾驶领域讲“clip数量”,而非单纯时长。具身行业模型决定下限,数据决定上限:仅靠相机标定对齐、动作画面关系对齐、筛出脏数据,就能提升几十个百分点成功率。
关键要点
- Uranus定位为机器人开发基础设施,针对benchmark公信力不足和sim-to-real gap两大痛点,不做大脑而做裁判与场地。
- 真机评测效率低、难复现;仿真评测快但存在gap;Uranus通过动作驱动帧生成反馈,实现可控、可复现且分数与真实能力正相关。
- 帧级闭环是核心技术:每次仅生成下一帧,确保实时交互;突破误差累积后可稳定运行60秒。
- 支持跨具身泛化(G1人形机器人、Franka等),但仅限manipulation训练,尚未加触觉等模态。
- 视频生成质量为基础设施核心,先做好视频生成对动作训练有更大帮助。
- 项目耗时三分之二在infra(存储、算力多卡并行、云协调)和数据清洗(丢帧修正、动作对齐、标定)。
- 团队计划数据扩充至数万小时级别,强调质量与多样性优于数量,数据工程是当前瓶颈。
- 地瓜机器人自定位为机器人“英伟达”,提供底座生态,Uranus嵌入其训练与评测流程。
意义与影响
Uranus的发布填补了机器人基础设施领域的空白,为具身智能发展提供了更客观、高效的评测与训练平台。它将推动benchmark从“刷榜”向“有意义分数”转变,提升模型实际应用能力,同时降低sim-to-real gap,加速强化学习训练效率。
地瓜机器人将基础设施与生态深度融合的模式,类似于英伟达在AI领域的定位,可能带动更多机器人公司重视软硬件底座建设,降低行业“缺算力、不确定性高”的顾虑,加速具身智能从实验室走向工业化应用。
长期来看,Uranus的帧级闭环与跨具身泛化能力,将帮助不同硬件上的世界模型训练与评测,缩小学术与工业的差距;同时,数据工程的重要性凸显,未来具身行业可能更多聚焦高质量、多样化数据采集与清洗,而非单纯堆模型参数。
这一变化将对机器人开发流程产生深远影响:评测更公正、训练更稳定、迭代更快,最终助力具身智能技术更快落地,推动通用机器人从“卖铲”向“卖脑”迈进。
