哥大李昀烛:3D物理先验与2D数据融合是机器人基础模型解药
速览
哥伦比亚大学李昀烛在ICRA 2026提出结构化世界模型,旨在解决具身智能数据采集成本高、评估难的问题。该方案融合3D物理先验与海量2D数据,构建可扩展的数据引擎以赋能机器人策略训练。此举为突破机器人基础模型的数据瓶颈提供了关键路径。
AI 深度解读
背景
2026年6月1日,在奥地利维也纳举行的国际机器人与自动化会议(ICRA 2026)上,哥伦比亚大学助理教授李昀烛(Yunzhu Li)在“Synthetic Data for Robot Learning”研讨会上发表了题为《Structured World Models as Scalable Data Engines for Robot Policy Training and Evaluation》的演讲。
当前具身智能(Embodied AI)领域面临两大核心痛点:一是真实物理交互数据的采集成本极高,二是模型在真实环境中的试错与评估极其困难。尽管大语言模型(LLM)和视觉语言模型(VLM)在通用人工智能领域取得突破,但直接将其应用于机器人控制时,往往缺乏底层的物理常识,且难以将视觉预测转化为具体的物理运动控制。
李昀烛指出,现有的技术路线主要两极分化:一端是纯数据驱动的端到端学习(如 DeepMind 的 Genie 3),另一端是纯基于物理规则模拟(如 NVIDIA Warp/Flex)。前者缺乏物理约束,后者受限于严苛的观测条件。为此,他提出了一条“中间路线”,即构建“结构化世界模型”(Structured World Models),将其作为无限可扩展的数据引擎,以解决机器人基础模型(Foundation Models)的数据瓶颈问题。
核心内容
李昀烛的演讲主要围绕“结构化世界模型”作为机器人策略训练与评估引擎的两个核心应用方向展开:基于物理先验的数字孪生,以及纯数据驱动的交互式世界模拟器。
1. 从刚体环境到“结构化世界模型”
李昀烛首先回顾了机器人操作领域的现状。虽然人形机器人和自动驾驶进展迅速,但在处理复杂物理交互(如柔性物体、非结构化场景)时,现有系统仍远未达到人类水平。他提出,机器人需要在大脑中建立物理世界的“心理模型”(Mental Model),以预测动作后果(如面团如何变形、洋葱如何滚落),从而赋能行为规划。
团队的核心技术路径是以图(Graph)为核心的神经动力学模型。该方法将物体拆解为粒子,描述刚性和可变形物体内部的物理约束。例如,在让机器人使用3D打印工具处理面团的任务中,模型能预测特定工具施加动作后面团的形变,进而实现逆向规划,成功制作饺子。这一逻辑也应用于不规则颗粒物重排等高难度任务。
2. 数字孪生:突破真机测试的效率瓶颈
针对真实世界数据采集昂贵且评估效率低的问题,团队开发了可变形物体的数字孪生技术。
- 构建流程简化:只需环绕物体拍摄视频,并通过少量实际交互捕捉动力学特性,即可构建包含外观、几何和动力学特征的物理实体副本。
- 评估有效性验证:Google 机器人团队曾面临真机测试慢、无法充分评估大量 Checkpoints 的困境。李昀烛团队利用数字孪生环境对多种流行策略算法及轻量级 VLA 模型进行评估,发现仿真环境中的成功率与真实环境呈现高度线性相关。
- 严谨的评估协议:为确保公平比较,团队借鉴丰田研究院(TRI)标准,严格控制初始状态。在真机测试中,使用半透明叠加轮廓确保实物摆放的一致性,并在仿真与真机中各运行20次进行侧面对比。结果显示,仿真引擎筛选出的最佳 Checkpoints 与真机表现完美对齐。
- 落地案例:团队联合创立初创公司,展示了完全由纯仿真数据训练出的策略模型,在真实环境中完成了高精度齿轮插入和柔性线缆插拔任务,证明了底层物理规则驱动的结构化世界模型能捕捉现实物理交互的细微偏差。
3. 纯AI构造的世界模拟器:零真实数据实现真机落地
在光谱的另一端,团队开发了“交互式世界模拟器”,这是一个基于动作条件的视频生成/预测模型,也是 RSS 顶会接收的开源工作。
- 技术突破:该模型能在 15 帧/秒的速率下生成超过 10 分钟的动作条件预测视频,具备真实的 3D 深度理解能力。它能精准捕捉夹爪与绳索的拓扑约束、马克杯的接触交互,并确保多摄像机视角下的三维空间一致性。
- 训练价值:团队在未采集任何真实物理世界数据的情况下,仅利用模拟器生成的虚拟轨迹训练策略模型(包括 Diffusion Policy、ACT 及 Pi0 模型),实现了“绳索布线”、“杂物清扫”等复杂任务的零样本真机落地。
- 虚实数据等价性:消融实验表明,在模拟器中生成的一条虚拟轨迹数据,其训练价值几乎 100% 等效于真机采集的一条真实数据。不同模型在不同任务间表现出极高的一致性。
关键要点
- 中间路线优势:纯端到端大模型缺乏物理常识,纯物理引擎受限于观测条件。融合3D物理先验与海量2D数据学习的“中间地带”是突破机器人基础模型数据瓶颈的关键。
- 结构化世界模型定义:以图(Graph)和粒子网络为核心,解耦动力学建模(Graph管物理)与视觉渲染(高斯溅射管外观),通过线性混合蒙皮技术绑定,实现对刚性和可变形物体的精准物理预测。
- 数字孪生的评估价值:数字孪生环境能高度线性地预测真实环境的成功率,解决了大厂在大规模模型训练中真机评估成本过高、迭代速度断崖式下跌的痛点。
- 评估严谨性标准:在模型评估中,必须严格控制初始状态的一致性(如使用半透明轮廓对齐),并在仿真与真机中进行同等次数的测试(如各20次),以确保对比的公平性。
- 虚拟数据的高效性:纯AI生成的交互式世界模拟器产生的虚拟数据,在训练价值上几乎等同于真实数据。仅用虚拟数据训练的模型即可在复杂物理交互任务中实现零样本真机部署。
- 3D物理先验的必要性:李昀烛强调3D技术的重要性,认为即使使用2D视频大模型,其内部也必须包含三维空间理解能力(如多视角联合推演)。最终的大模型将建立在3D物理结构与2D海量数据的交汇处。
意义与影响
李昀烛的研究为具身智能领域提供了一套可规模化、低成本的数据引擎解决方案。
首先,大幅降低了机器人研发的成本与周期。通过结构化世界模型,研究人员可以利用仿真数据替代高昂的真实世界数据采集,并利用数字孪生进行高效的策略评估,避免了在真机上反复试错的资源浪费。这对于需要处理柔性物体和非结构化场景的复杂任务尤为重要。
其次,提升了机器人策略的泛化能力与鲁棒性。研究表明,基于高质量虚拟数据训练的模型,在真实环境中表现出与仿真高度一致的可靠性,甚至能抵御外部干扰。这证明了通过“数据生成-模型训练-数据反哺”的闭环,可以构建出极度丰富的世界模型,进而提升机器人的适应能力。
最后,指明了机器人基础模型的技术演进方向。李昀烛提出的“3D物理先验与2D数据深度融合”路线,为行业提供了超越纯端到端或纯物理模拟的第三种选择。这种结合结构化物理约束与数据驱动优势的方法,有望成为构建通用机器人基础模型(Foundation Models)的必由之路,推动机器人从简单的规则几何体操作迈向复杂、非结构化的真实世界应用。
