ICRA 2026|NVIDIA Research将机器人技术从模拟发展到现实世界
速览
NVIDIA Research在ICRA 2026上展示了8篇关于Sim-to-Real传输的研究论文,旨在解决机器人在动态、不可预测环境中可靠操作的问题。研究涵盖了多臂并行协调、跨身体通用导航策略、杂乱环境下的自适应抓取以及高精度组装等关键挑战。通过结合NVIDIA Isaac Lab、Omniverse等工具,这些技术显著提升了机器人在现实世界中的成功率和适应性,推动了从受控演示向真正自主体现智能的转变。
AI 深度解读
背景
随着机器人技术从受控演示和脚本自动化阶段,迈向现实世界中可推广、可靠的体现自主(Embodied Autonomy),Sim-to-Real(从模拟到现实)的传输技术已成为这一转变的核心基础。在国际机器人和自动化会议(ICRA)上,NVIDIA Research 展示了其最新的研究成果,重点解决机器人在动态、不可预测环境中感知、推理、计划和行动的挑战。
NVIDIA Research 在 ICRA 上共提交了 28 篇论文,其中 8 篇深入探讨了 Sim-to-Real 技术。这些研究涵盖了多臂并行协调、跨机器人身体通用的策略构建、杂乱环境中的物体抓取、精确组装以及视觉-语言-动作(VLA)模型的开发。其核心目标是提升机器人在实验室外以更高可靠性进行适应、概括和操作的能力。
核心内容
NVIDIA Research 在 ICRA 上发布的八篇论文主要围绕以下四个关键领域展开,展示了如何通过模拟训练优化现实世界的机器人性能:
1. 协调手臂、导航身体与抓取物体
-
ScheduleStream:多臂并行规划 在制药实验室等场景中,多个机械臂需要拾取试管、转移液体并混合试剂。传统调度软件按顺序处理步骤,效率低下。ScheduleStream 通过在 GPU 上执行计算,允许多个手臂并行计划移动。在 NVIDIA Jetson 边缘 AI 平台等硬件上,该框架使跨多臂规划场景的速度加快了 3 倍。其代码已开源至 GitHub。
-
COMPASS:跨身体通用导航策略 导航软件通常难以在不同形状的机器人身体间迁移。COMPASS 政策框架首先利用模仿学习构建基线导航功能,随后使用 NVIDIA Isaac Lab 中的剩余强化学习为各种机器人构建专家模块。整个过程无需现实世界数据,完全在 Isaac Lab 模拟中训练。与模仿学习基线相比,COMPASS 的平均成功率提高了 4.5 倍,并在自主移动机器人和人形的 20 次现实世界导航试验中实现了约 80% 的成功率。开发者可将其与 NVIDIA Omniverse NuRec 连接,在数字孪生中进行后训练和验证。
-
Grasp-MPC:自适应抓取 传统抓取系统执行固定计划,但在最后几厘米的细微错误至关重要。Grasp-MPC 采用模型预测控制(MPC),在机器人靠近物体时不断纠正运动,而非依赖预先计算的关节角度。研究人员利用 GraspGen 数据集和 cuRobo 的运动规划数据,在 8000 个物体上生成了 200 万个模拟轨迹进行训练。在杂乱桌面和架子上抓取新颖物体时,Grasp-MPC 在真实机器人上取得了约 75% 的总体成功率,而基线仅为 41%。
-
可变形聚类操作:处理纠缠材料 针对电力线树枝清理等任务,系统需同时抓取整个灵活、纠缠的材料。该框架利用生物生长方程合成不同形状大小的树,并在 NVIDIA Isaac 开放模拟框架中训练。部署到真实树枝时实现了零射击(Zero-shot)操作,展现了在电缆管理、农业检查等领域的潜力。
2. 精确组装
-
SPARR:纠正模拟误差 现实世界中的表面不完美和传感器偏差使得仅靠模拟进行精确组装(如螺母穿入螺栓)极其困难。SPARR 方法将工作分为两部分:首先在 Isaac Lab 中训练策略学习模拟中的通用组装策略;然后在实际硬件上,第二层利用机器人自身相机纠正模拟器的误差,无需人类演示。与零射击基线相比,SPARR 的成功率提高了 38%,周期时间缩短了约 30%。在未见过的 NIST 组装任务上,成功率提高了近 75%。
-
炼油厂框架:多步骤序列组装 针对具有多个顺序步骤且前一步骤影响后续步骤的复杂组装任务(如家具组装),该框架通过数百个模拟场景训练,学习如何完成每一步并将组件留在正确位置。相比现实世界基线,它实现了 91% 的模拟成功率,并带来近 11% 的平均改进,能够串联处理冗长的多部分序列。
3. 保持承诺的动作模型
-
PEEK:视觉聚焦与降噪 在杂乱环境中,机器人相机捕捉大量无关噪音。PEEK 项目让视觉语言模型读取任务指令(如“把香蕉交给黄仁”),从而聚焦机器人的视线,显示运动路径并突出重要物体,淡化其他内容。PEEK 在图像级别工作,无需修改即可集成到任何基于相机的策略中。对于纯模拟训练的策略,PEEK 使现实世界准确性提高了 41 倍;对于大型 VLA 模型和较小策略,收益范围为 2-3.5 倍。
-
SEAL:运行时一致性修复 SEAL 解决了 AI 模型推理正确但执行错误的问题。该框架在运行时无需再训练,通过生成几个候选动作序列,思考每个序列的实际结果,并选择与指令描述相匹配的结果。与之前工作相比,SEAL 提供了高达 15% 的精度提升,并对改写指令、更改对象、场景杂乱和移动相机角度具有稳健性。
4. 基础设施与数据集
除了算法创新,NVIDIA 还通过大规模开放数据集扩展机器人研究基础设施。NVIDIA 物理人工智能数据集(NVIDIA Physical AI Dataset)是世界上最大的物理开发开放数据集,下载量超过 1500 万次;NVIDIA Isaac GR00T X Embodiment Sim 也成为下载量最大的机器人数据集之一。
关键要点
- Sim-to-Real 成为主流:NVIDIA Research 在 ICRA 上展示的 8 篇论文证实,Sim-to-Real 传输技术已成为机器人从实验室走向现实世界动态环境的基础。
- 并行与自适应计算:ScheduleStream 通过 GPU 并行计算将多臂规划速度提升 3 倍;Grasp-MPC 通过自适应纠正在杂乱环境中将抓取成功率从 41% 提升至 75%。
- 跨身体通用性:COMPASS 框架解决了导航策略难以在不同机器人身体间迁移的问题,使平均成功率提高 4.5 倍,并在现实世界中达到 80% 的成功率。
- 模拟误差纠正:SPARR 方法通过结合模拟训练和现实硬件的实时纠正,将组装成功率提高 38%,并在未见任务中提高近 75%。
- 视觉与推理增强:PEEK 通过视觉聚焦将模拟策略的现实准确性提高 41 倍;SEAL 通过运行时一致性检查,将任务执行精度提升高达 15%,解决了“说一套做一套”的 AI 故障模式。
- 零数据依赖训练:COMPASS 等框架强调在 Isaac Lab 等模拟环境中完全训练,无需现实世界数据即可部署。
- 开放生态支持:NVIDIA 通过提供超过 1500 万次下载的物理 AI 数据集和 GR00T X 模拟环境,降低了机器人开发的门槛。
意义与影响
NVIDIA Research 在 ICRA 上的成果标志着机器人开发范式的重大转变。通过解决多臂协调、跨身体迁移、杂乱环境抓取、精确组装以及视觉-语言一致性等关键痛点,NVIDIA 正在构建一个更加可靠、通用且高效的机器人技术栈。
这些技术不仅加速了机器人从受控演示向现实世界自主操作的过渡,还通过 Sim-to-Real 技术大幅降低了部署成本和风险。例如,COMPASS 和 SPARR 的研究表明,高质量的模拟训练可以显著减少现实世界调试的需求。同时,PEEK 和 SEAL 等模块的引入,增强了机器人在复杂非结构化环境中的理解和执行能力,使其能够处理更长的任务序列和更模糊的指令。
此外,NVIDIA 通过开源代码(如 ScheduleStream)和提供大规模开放数据集,进一步推动了整个机器人社区的进步。这些进展为制药、制造、物流以及家庭服务等领域的自动化应用铺平了道路,预示着机器人技术将在更广泛的场景中实现规模化落地。
