李飞飞新论文:视频生成无限训练场景
速览
李飞飞署名的新论文提出Real2Sim方法,与传统的Sim2Real相反,它从真实视频生成丰富的模拟训练数据。仅需一段视频,即可产生无限多样的训练场景,大幅降低具身智能的模拟成本。该方法有望推动机器人学习从仿真到现实的有效迁移。
AI 深度解读
背景
近年来,机器人策略训练的瓶颈日益显著:真实世界的数据采集成本高昂、速度缓慢,而仿真环境虽能提供近乎无限的数据,但搭建一个具备真实几何、物理属性和交互能力的仿真场景本身仍需大量人工。传统的 Sim2Real 范式(从仿真到真实迁移)长期占据主流,但研究者逐渐发现,在缺乏高质量仿真环境时,Sim2Real 的烧钱效应十分突出。于是,Real2Sim(从真实到仿真)作为替代方向开始走红——利用 3D 重建和生成模型,将真实世界快速转化为可交互的仿真环境。然而,已有的 Real2Sim 方案往往只打通了单点环节:有的擅长重建场景却无法生成训练数据,有的依赖人工配置而难以规模化。正是在这一背景下,NVIDIA GEAR、李飞飞团队、佐治亚理工大学等联合推出 SimFoundry,试图构建完整的 Real-to-Sim 闭环。
核心内容
SimFoundry 是一个端到端的 Real2Sim 系统:只需一段真实世界的 RGB 视频,系统就能自动生成一个可交互、可训练、可评测的机器人仿真环境。不仅如此,它还能在保持物体功能和 Affordance(功能可供性)不变的前提下,自动更换物体、调整场景布局、生成新的操作任务,从而从一段真实视频扩展出几乎无限的仿真训练数据。整个流程分为三个阶段:
-
Extraction(提取):系统输入一段普通 RGB 视频。首先利用深度估计恢复三维点云,再通过视觉语言模型(VLM)和 SAM 3 等分割模型,逐个识别并分割场景中的物体。每提取一个物体,系统使用图像修复(Inpainting)将其从画面中移除,继续寻找下一个目标,直至完成完整的场景解析。
-
Generation(生成):对提取出的每个物体,SimFoundry 利用 2D-to-3D 模型生成三维网格,并借助 FoundationPose 等模型恢复其真实位姿;对于抽屉、柜门等关节物体,自动推导关节结构。同时,系统补充质量、摩擦力等物理属性,生成碰撞模型并修复穿模问题,最终导出可直接运行于 IsaacLab 等物理引擎中的仿真场景,即构建出精确复刻真实场景的 Digital Twin(数字孪生)。
-
Augmentation(增强):这是 SimFoundry 的核心创新。在 Digital Twin 基础上,系统自动生成 Digital Cousins(数字表亲),从三个维度扩展:
- Object Cousins:改变物体的外观和几何形态,但保持其功能不变;
- Scene Cousins:调整物体布局或引入新物体,生成新的场景;
- Task Cousins:根据场景中的物体及其 Affordance,自动推导新的机器人操作任务。
从而,一段视频不仅重建一个数字孪生,还能自动扩展出大量保持相同行为语义的新物体、新场景和新任务,为机器人提供几乎无限的训练数据。
实验在两套机器人平台、7 类典型操作任务上验证了 Real-to-Sim 策略评估和 Sim-to-Real 策略训练两项核心能力。结果显示:SimFoundry 中机器人表现与真实世界高度一致,平均皮尔逊相关系数达 0.911,平均最大排名违例(MMRV)仅 0.018,优于此前最先进的评测框架 PolaRiS。在策略训练方面,仅使用 Digital Twin 的基础上,引入 Object、Scene 和 Task Cousins 后,真实世界中的平均任务成功率分别提升 17%、21% 和 40%。且仅利用 SimFoundry 自动生成数据训练出的策略,能够零样本部署到真实机器人,在多步操作、双臂协作、带关节物体操作等任务上取得接近满分的成功率。
关键要点
- 从 Real2Sim 到 Real-to-Sim 闭环:SimFoundry 打通了场景生成、数据生成、策略评测和策略训练的完整闭环,改变了以往 Real2Sim 方案只覆盖单环节的局面。
- Digital Twin + Digital Cousins 双层级设计:先精确复刻真实场景(Digital Twin),再在保持功能语义的前提下自动生成变体(Digital Cousins),实现从一段视频到无限训练数据的扩展。
- 三阶段自动流水线:Extraction(理解真实场景)→ Generation(搭建数字孪生)→ Augmentation(创造数字表亲),整个过程无需人工介入。
- 显著的策略提升:引入 Digital Cousins 后,真实世界任务成功率提升 17%~40%;零样本迁移至真实机器人时,多类操作任务取得接近满分成功率。
- 强预测一致性:SimFoundry 对真实机器人表现的预测精度(相关系数 0.911)超过以往评测框架,可替代昂贵的实机测试。
意义与影响
SimFoundry 代表了具身智能领域从“仿真训练 + 真实迁移”向“真实驱动仿真生成”的范式跃迁。通过将一段普通视频自动转化为无限仿真数据,该系统大幅降低了机器人策略训练和评测的门槛:研究人员无需再投入大量资金和时间进行真实数据采集与手工建模,转而利用自动生成的 Digital Cousins 即可批量探索机器人的泛化能力。这一工作尤其对多步操作、双臂协作等复杂任务有实质推动作用,因为它能在保持物理交互真实性的前提下,系统性地生成多样化的操作场景与任务。此外,SimFoundry 所展现的从真实到仿真再回到真实的闭环能力,使得仿真环境不再只是训练工具,更成为可靠的策略评估平台,有望加速机器人算法从实验室走向真实部署的进程。作者阵容(包括 Jim Fan、李飞飞、徐丹飞、朱玉可等 NVIDIA GEAR 与顶尖高校核心研究者)也进一步印证了该工作在前沿学术与产业生态中的重量级地位。
