← 返回信息流
AI 资讯量子位·2 小时前

英伟达进军机器人领域,自主研发机器人技术

原标题:英伟达开始搞机器人自己研究机器人那套了…

速览

英伟达正式进军机器人领域,开始自主研发机器人技术。此举标志着其在AI硬件和算力基础设施之外,进一步拓展至具身智能等前沿应用层。这一动作反映了AI巨头对机器人赛道的高度重视与深度布局。

AI 深度解读

背景

随着大语言模型(LLM)在数字世界展现出强大的自主研究能力(如 Karpathy 提出的 Autoresearch 框架),具身智能(Embodied AI)领域也在加速重走大模型的发展路径。英伟达(Nvidia)、卡内基梅隆大学(CMU)和加州大学伯克利分校(Berkeley)联合推出了一项名为 ENPIRE 的具身智能研究框架。

该框架由英伟达 GEAR 实验室研究员肖文力(Wenli Xiao)、谢佳(Jia Xie)等人主导,旨在解决具身智能研究中最大的痛点:物理世界的不可重复性与高试错成本。ENPIRE 的核心目标是将 AI Agent 从“执行者”升级为“研究者”,让 AI 自主完成从阅读论文、提出假设、训练策略到真机部署、分析结果的全套科研闭环。

核心内容

ENPIRE 框架并非简单地让 Agent 编写控制代码,而是构建了一套完整的自动化实验基础设施(Harness Framework),使 AI 能够像人类研究员一样在物理世界中进行迭代研究。

1. 自动化实验基础设施(Harness Framework)

物理世界与代码世界最大的区别在于,代码出错可以 env.reset(),而机器人实验失败后,物理场景会混乱,需要复杂的人工复位。ENPIRE 通过四个模块解决了这一问题:

  • EN (Environment) 环境模块:这是最关键的一环。它负责搭建安全边界、实现实验场景的自动复位(如将机器人恢复到初始姿态、整理散落的物体)以及自动评分。例如,在扎带穿扎任务中,Agent 设计了双视角视觉检测方案,在 150 毫秒内判断扎带是否成功穿过,实现了无需人工介入的自动评分。
  • PI (Policy Improvement) 策略改进:Agent 根据任务目标提出新方案。它可以尝试行为克隆(Behavior Cloning)、强化学习(RL)、启发式规则或混合方法,并自主决定优化方向。
  • R (Rollout) 部署测试:将新策略部署到真实机器人上执行,记录轨迹、视频和传感器信号,收集真实物理反馈。
  • E (Evolution) 进化:多 Agent 协作的核心。8 个 Agent 各自控制一台双臂机器人,通过 Git 共享代码,互相吸收有效方案,淘汰失败路线,形成集体智慧。

2. 自主研究过程与案例

ENPIRE 在四个高难度灵巧操作任务上进行了验证:Push-T(推动积木)、Pin Insertion(针插孔)、GPU Insertion(GPU 插主板)以及 Zip-tie(扎带剪切)。所有任务最终均达到了 99% 的成功率。

Pin Insertion 任务为例,Agent 展示了类似人类博士生的研究路径:

  1. 首先尝试行为克隆,效果不佳。
  2. 引入在线强化学习数据,性能提升。
  3. 增加正则化项,成功率出现跃升。
  4. 调整 Batch Size 并补偿控制器延迟,进一步提升稳定性。

Zip-tie 任务中,Agent 发现端到端训练因任务链条过长(找剪刀-抓剪刀-对准-剪切)而难以收敛,于是主动改变策略:先利用 VLA 模型(视觉-语言-动作模型)进行粗定位,再调用工具 API 执行精细操作。这种从“端到端”到“分层控制”的架构调整,完全是 Agent 自主做出的决策。

3. 物理世界的 Scaling 与经验迁移

ENPIRE 引入了“物理 Scaling”概念,即通过扩展机器人舰队数量来加速研究。

  • 效率提升:在 Pin Insertion 任务中,8 台机器人并行探索将目标达成时间从单机器人的 1.5 小时缩短至 40 分钟。
  • 经验传承:Agent 可以将一个任务(如 Pin Insertion)的研究笔记(文字总结)直接作为 Prompt 输入到另一个任务(如 GPU Insertion)中。这种非权重、非数据的“知识迁移”,模拟了人类实验室中的“传帮带”机制,显著提升了后续研究的效率。

关键要点

  • 自主性突破:ENPIRE 实现了从“人类编写代码控制机器人”到“AI 自主设计实验并优化机器人策略”的转变,全程无需人类值守。
  • 物理环境标准化:通过自动复位、自动评分和安全控制接口,ENPIRE 将混乱的物理世界封装为标准 API,使其具备了类似软件开发环境的可迭代性。
  • 多智能体协作:8 个 Coding Agent 并行工作,通过 Git 共享代码和实验结果,实现了高效的并行探索与知识共享。
  • 成本与挑战:虽然效率提升显著,但 Token 消耗随 Agent 数量增加而激增。论文提出了“Mean Robot Utilization”和“Mean Token Utilization”两个指标来衡量这种资源代价。
  • 大平行框架的闭环:ENPIRE 补齐了英伟达提出的“大平行”(The Great Parallel)框架的最后一块拼图——具身智能的自主研究阶段,标志着机器人领域正式进入类似 LLM 的预训练、对齐、RL 推理后的自主进化阶段。

意义与影响

ENPIRE 的发布标志着具身智能研究范式的重大转变。

首先,它证明了 AI Agent 不仅能在数字世界进行代码生成和逻辑推理,也能在物理世界中通过试错和迭代,自主解决复杂的工程问题。Agent 展现出的假设提出、实验设计、失败分析和策略调整能力,与人类科研人员的思维模式高度相似。

其次,ENPIRE 为具身智能的规模化研究提供了可行路径。通过“物理 Scaling”,研究者可以利用机器人舰队并行探索不同的技术路线,大幅缩短从理论到实物的验证周期。这种模式有望加速灵巧操作、家庭服务等复杂场景下的机器人技术落地。

最后,ENPIRE 的开源将降低具身智能研究的门槛。尽管硬件和算力成本依然高昂,但标准化的实验框架使得更多研究团队能够搭建自己的“自运行机器人实验室”,推动整个行业从“人工调试”向“AI 自主进化”加速迈进。正如项目负责人 Jim Fan 所言,这相当于给 Codex 提供了一个通往原子世界的 API,剩下的将是技术的涌现。

查看原文 →qbitai.com