AI 资讯量子位·2 小时前

英伟达进军机器人领域，自主研发机器人技术

原标题：英伟达开始搞机器人自己研究机器人那套了…

速览

英伟达正式进军机器人领域，开始自主研发机器人技术。此举标志着其在AI硬件和算力基础设施之外，进一步拓展至具身智能等前沿应用层。这一动作反映了AI巨头对机器人赛道的高度重视与深度布局。

AI 深度解读

背景

随着大语言模型（LLM）在数字世界展现出强大的自主研究能力（如 Karpathy 提出的 Autoresearch 框架），具身智能（Embodied AI）领域也在加速重走大模型的发展路径。英伟达（Nvidia）、卡内基梅隆大学（CMU）和加州大学伯克利分校（Berkeley）联合推出了一项名为 ENPIRE 的具身智能研究框架。

该框架由英伟达 GEAR 实验室研究员肖文力（Wenli Xiao）、谢佳（Jia Xie）等人主导，旨在解决具身智能研究中最大的痛点：物理世界的不可重复性与高试错成本。ENPIRE 的核心目标是将 AI Agent 从“执行者”升级为“研究者”，让 AI 自主完成从阅读论文、提出假设、训练策略到真机部署、分析结果的全套科研闭环。

核心内容

ENPIRE 框架并非简单地让 Agent 编写控制代码，而是构建了一套完整的自动化实验基础设施（Harness Framework），使 AI 能够像人类研究员一样在物理世界中进行迭代研究。

1. 自动化实验基础设施（Harness Framework）

物理世界与代码世界最大的区别在于，代码出错可以 env.reset()，而机器人实验失败后，物理场景会混乱，需要复杂的人工复位。ENPIRE 通过四个模块解决了这一问题：

EN (Environment) 环境模块：这是最关键的一环。它负责搭建安全边界、实现实验场景的自动复位（如将机器人恢复到初始姿态、整理散落的物体）以及自动评分。例如，在扎带穿扎任务中，Agent 设计了双视角视觉检测方案，在 150 毫秒内判断扎带是否成功穿过，实现了无需人工介入的自动评分。
PI (Policy Improvement) 策略改进：Agent 根据任务目标提出新方案。它可以尝试行为克隆（Behavior Cloning）、强化学习（RL）、启发式规则或混合方法，并自主决定优化方向。
R (Rollout) 部署测试：将新策略部署到真实机器人上执行，记录轨迹、视频和传感器信号，收集真实物理反馈。
E (Evolution) 进化：多 Agent 协作的核心。8 个 Agent 各自控制一台双臂机器人，通过 Git 共享代码，互相吸收有效方案，淘汰失败路线，形成集体智慧。

2. 自主研究过程与案例

ENPIRE 在四个高难度灵巧操作任务上进行了验证：Push-T（推动积木）、Pin Insertion（针插孔）、GPU Insertion（GPU 插主板）以及 Zip-tie（扎带剪切）。所有任务最终均达到了 99% 的成功率。

以 Pin Insertion 任务为例，Agent 展示了类似人类博士生的研究路径：

首先尝试行为克隆，效果不佳。
引入在线强化学习数据，性能提升。
增加正则化项，成功率出现跃升。
调整 Batch Size 并补偿控制器延迟，进一步提升稳定性。

在 Zip-tie 任务中，Agent 发现端到端训练因任务链条过长（找剪刀-抓剪刀-对准-剪切）而难以收敛，于是主动改变策略：先利用 VLA 模型（视觉-语言-动作模型）进行粗定位，再调用工具 API 执行精细操作。这种从“端到端”到“分层控制”的架构调整，完全是 Agent 自主做出的决策。

3. 物理世界的 Scaling 与经验迁移

ENPIRE 引入了“物理 Scaling”概念，即通过扩展机器人舰队数量来加速研究。

效率提升：在 Pin Insertion 任务中，8 台机器人并行探索将目标达成时间从单机器人的 1.5 小时缩短至 40 分钟。
经验传承：Agent 可以将一个任务（如 Pin Insertion）的研究笔记（文字总结）直接作为 Prompt 输入到另一个任务（如 GPU Insertion）中。这种非权重、非数据的“知识迁移”，模拟了人类实验室中的“传帮带”机制，显著提升了后续研究的效率。

关键要点

自主性突破：ENPIRE 实现了从“人类编写代码控制机器人”到“AI 自主设计实验并优化机器人策略”的转变，全程无需人类值守。
物理环境标准化：通过自动复位、自动评分和安全控制接口，ENPIRE 将混乱的物理世界封装为标准 API，使其具备了类似软件开发环境的可迭代性。
多智能体协作：8 个 Coding Agent 并行工作，通过 Git 共享代码和实验结果，实现了高效的并行探索与知识共享。
成本与挑战：虽然效率提升显著，但 Token 消耗随 Agent 数量增加而激增。论文提出了“Mean Robot Utilization”和“Mean Token Utilization”两个指标来衡量这种资源代价。
大平行框架的闭环：ENPIRE 补齐了英伟达提出的“大平行”（The Great Parallel）框架的最后一块拼图——具身智能的自主研究阶段，标志着机器人领域正式进入类似 LLM 的预训练、对齐、RL 推理后的自主进化阶段。

意义与影响

ENPIRE 的发布标志着具身智能研究范式的重大转变。

首先，它证明了 AI Agent 不仅能在数字世界进行代码生成和逻辑推理，也能在物理世界中通过试错和迭代，自主解决复杂的工程问题。Agent 展现出的假设提出、实验设计、失败分析和策略调整能力，与人类科研人员的思维模式高度相似。

其次，ENPIRE 为具身智能的规模化研究提供了可行路径。通过“物理 Scaling”，研究者可以利用机器人舰队并行探索不同的技术路线，大幅缩短从理论到实物的验证周期。这种模式有望加速灵巧操作、家庭服务等复杂场景下的机器人技术落地。

最后，ENPIRE 的开源将降低具身智能研究的门槛。尽管硬件和算力成本依然高昂，但标准化的实验框架使得更多研究团队能够搭建自己的“自运行机器人实验室”，推动整个行业从“人工调试”向“AI 自主进化”加速迈进。正如项目负责人 Jim Fan 所言，这相当于给 Codex 提供了一个通往原子世界的 API，剩下的将是技术的涌现。

查看原文 →qbitai.com