AI 资讯雷峰网·6 天前

ICRA 2026｜NVIDIA Research将机器人技术从模拟发展到现实世界

速览

NVIDIA Research在ICRA 2026上展示了8篇关于Sim-to-Real传输的研究论文，旨在解决机器人在动态、不可预测环境中可靠操作的问题。研究涵盖了多臂并行协调、跨身体通用导航策略、杂乱环境下的自适应抓取以及高精度组装等关键挑战。通过结合NVIDIA Isaac Lab、Omniverse等工具，这些技术显著提升了机器人在现实世界中的成功率和适应性，推动了从受控演示向真正自主体现智能的转变。

AI 深度解读

背景

随着机器人技术从受控演示和脚本自动化阶段，迈向现实世界中可推广、可靠的体现自主（Embodied Autonomy），Sim-to-Real（从模拟到现实）的传输技术已成为这一转变的核心基础。在国际机器人和自动化会议（ICRA）上，NVIDIA Research 展示了其最新的研究成果，重点解决机器人在动态、不可预测环境中感知、推理、计划和行动的挑战。

NVIDIA Research 在 ICRA 上共提交了 28 篇论文，其中 8 篇深入探讨了 Sim-to-Real 技术。这些研究涵盖了多臂并行协调、跨机器人身体通用的策略构建、杂乱环境中的物体抓取、精确组装以及视觉-语言-动作（VLA）模型的开发。其核心目标是提升机器人在实验室外以更高可靠性进行适应、概括和操作的能力。

核心内容

NVIDIA Research 在 ICRA 上发布的八篇论文主要围绕以下四个关键领域展开，展示了如何通过模拟训练优化现实世界的机器人性能：

1. 协调手臂、导航身体与抓取物体

ScheduleStream：多臂并行规划 在制药实验室等场景中，多个机械臂需要拾取试管、转移液体并混合试剂。传统调度软件按顺序处理步骤，效率低下。ScheduleStream 通过在 GPU 上执行计算，允许多个手臂并行计划移动。在 NVIDIA Jetson 边缘 AI 平台等硬件上，该框架使跨多臂规划场景的速度加快了 3 倍。其代码已开源至 GitHub。
COMPASS：跨身体通用导航策略 导航软件通常难以在不同形状的机器人身体间迁移。COMPASS 政策框架首先利用模仿学习构建基线导航功能，随后使用 NVIDIA Isaac Lab 中的剩余强化学习为各种机器人构建专家模块。整个过程无需现实世界数据，完全在 Isaac Lab 模拟中训练。与模仿学习基线相比，COMPASS 的平均成功率提高了 4.5 倍，并在自主移动机器人和人形的 20 次现实世界导航试验中实现了约 80% 的成功率。开发者可将其与 NVIDIA Omniverse NuRec 连接，在数字孪生中进行后训练和验证。
Grasp-MPC：自适应抓取 传统抓取系统执行固定计划，但在最后几厘米的细微错误至关重要。Grasp-MPC 采用模型预测控制（MPC），在机器人靠近物体时不断纠正运动，而非依赖预先计算的关节角度。研究人员利用 GraspGen 数据集和 cuRobo 的运动规划数据，在 8000 个物体上生成了 200 万个模拟轨迹进行训练。在杂乱桌面和架子上抓取新颖物体时，Grasp-MPC 在真实机器人上取得了约 75% 的总体成功率，而基线仅为 41%。
可变形聚类操作：处理纠缠材料 针对电力线树枝清理等任务，系统需同时抓取整个灵活、纠缠的材料。该框架利用生物生长方程合成不同形状大小的树，并在 NVIDIA Isaac 开放模拟框架中训练。部署到真实树枝时实现了零射击（Zero-shot）操作，展现了在电缆管理、农业检查等领域的潜力。

2. 精确组装

SPARR：纠正模拟误差 现实世界中的表面不完美和传感器偏差使得仅靠模拟进行精确组装（如螺母穿入螺栓）极其困难。SPARR 方法将工作分为两部分：首先在 Isaac Lab 中训练策略学习模拟中的通用组装策略；然后在实际硬件上，第二层利用机器人自身相机纠正模拟器的误差，无需人类演示。与零射击基线相比，SPARR 的成功率提高了 38%，周期时间缩短了约 30%。在未见过的 NIST 组装任务上，成功率提高了近 75%。
炼油厂框架：多步骤序列组装 针对具有多个顺序步骤且前一步骤影响后续步骤的复杂组装任务（如家具组装），该框架通过数百个模拟场景训练，学习如何完成每一步并将组件留在正确位置。相比现实世界基线，它实现了 91% 的模拟成功率，并带来近 11% 的平均改进，能够串联处理冗长的多部分序列。

3. 保持承诺的动作模型

PEEK：视觉聚焦与降噪 在杂乱环境中，机器人相机捕捉大量无关噪音。PEEK 项目让视觉语言模型读取任务指令（如“把香蕉交给黄仁”），从而聚焦机器人的视线，显示运动路径并突出重要物体，淡化其他内容。PEEK 在图像级别工作，无需修改即可集成到任何基于相机的策略中。对于纯模拟训练的策略，PEEK 使现实世界准确性提高了 41 倍；对于大型 VLA 模型和较小策略，收益范围为 2-3.5 倍。
SEAL：运行时一致性修复 SEAL 解决了 AI 模型推理正确但执行错误的问题。该框架在运行时无需再训练，通过生成几个候选动作序列，思考每个序列的实际结果，并选择与指令描述相匹配的结果。与之前工作相比，SEAL 提供了高达 15% 的精度提升，并对改写指令、更改对象、场景杂乱和移动相机角度具有稳健性。

4. 基础设施与数据集

除了算法创新，NVIDIA 还通过大规模开放数据集扩展机器人研究基础设施。NVIDIA 物理人工智能数据集（NVIDIA Physical AI Dataset）是世界上最大的物理开发开放数据集，下载量超过 1500 万次；NVIDIA Isaac GR00T X Embodiment Sim 也成为下载量最大的机器人数据集之一。

关键要点

Sim-to-Real 成为主流：NVIDIA Research 在 ICRA 上展示的 8 篇论文证实，Sim-to-Real 传输技术已成为机器人从实验室走向现实世界动态环境的基础。
并行与自适应计算：ScheduleStream 通过 GPU 并行计算将多臂规划速度提升 3 倍；Grasp-MPC 通过自适应纠正在杂乱环境中将抓取成功率从 41% 提升至 75%。
跨身体通用性：COMPASS 框架解决了导航策略难以在不同机器人身体间迁移的问题，使平均成功率提高 4.5 倍，并在现实世界中达到 80% 的成功率。
模拟误差纠正：SPARR 方法通过结合模拟训练和现实硬件的实时纠正，将组装成功率提高 38%，并在未见任务中提高近 75%。
视觉与推理增强：PEEK 通过视觉聚焦将模拟策略的现实准确性提高 41 倍；SEAL 通过运行时一致性检查，将任务执行精度提升高达 15%，解决了“说一套做一套”的 AI 故障模式。
零数据依赖训练：COMPASS 等框架强调在 Isaac Lab 等模拟环境中完全训练，无需现实世界数据即可部署。
开放生态支持：NVIDIA 通过提供超过 1500 万次下载的物理 AI 数据集和 GR00T X 模拟环境，降低了机器人开发的门槛。

意义与影响

NVIDIA Research 在 ICRA 上的成果标志着机器人开发范式的重大转变。通过解决多臂协调、跨身体迁移、杂乱环境抓取、精确组装以及视觉-语言一致性等关键痛点，NVIDIA 正在构建一个更加可靠、通用且高效的机器人技术栈。

这些技术不仅加速了机器人从受控演示向现实世界自主操作的过渡，还通过 Sim-to-Real 技术大幅降低了部署成本和风险。例如，COMPASS 和 SPARR 的研究表明，高质量的模拟训练可以显著减少现实世界调试的需求。同时，PEEK 和 SEAL 等模块的引入，增强了机器人在复杂非结构化环境中的理解和执行能力，使其能够处理更长的任务序列和更模糊的指令。

此外，NVIDIA 通过开源代码（如 ScheduleStream）和提供大规模开放数据集，进一步推动了整个机器人社区的进步。这些进展为制药、制造、物流以及家庭服务等领域的自动化应用铺平了道路，预示着机器人技术将在更广泛的场景中实现规模化落地。

查看原文 →leiphone.com