← 返回信息流
AI 资讯量子位·2 天前

清华AIR开源UniLab:人形机器人训练提速10倍,Mac可跑

原标题:机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

速览

清华大学AIR实验室开源了全新的机器人强化学习训练架构UniLab。该架构大幅优化了训练效率,使人形机器人的运控训练时间缩短至3分钟,速度提升10倍。此外,UniLab兼容Mac平台,降低了硬件门槛,推动了机器人AI技术的普及与应用。

AI 深度解读

背景

在具身智能(Embodied AI)与机器人强化学习领域,训练效率一直是制约技术落地的关键瓶颈。长期以来,行业内的主流框架如 IsaacLab、MuJoCo Playground 以及 mjlab 等,普遍遵循“将计算全部塞进 GPU”的范式。这种设计虽然直观,但导致系统牢牢绑定在 NVIDIA 生态及 CUDA 硬件上,且由于物理仿真与策略学习在同一块显卡上串行执行,造成了 CPU 多核算力闲置与 GPU 资源争抢并存的低效局面。这种“单极化”的计算架构不仅限制了硬件选择的多样性,也大幅增加了训练的时间成本。

在此背景下,清华大学智能产业研究院(AIR)DISCOVER Lab 联合清华大学、上海交通大学、上海创智学院等多所高校,以及谋先飞技术、求之科技、原力灵机等企业,正式推出了全新的机器人强化学习训练架构——UniLab。该架构旨在打破传统范式,通过重构系统底层结构,实现异构并行计算,从而将机器人运控训练带入“分钟级”时代。

核心内容

UniLab 的核心创新在于其“CPU 高效仿真 + GPU 策略训练”的异构高吞吐训练底座。团队并未简单叠加硬件资源,而是从底层重新组织了仿真、数据采集与策略学习之间的系统结构,主要包含以下三大突破:

1. 异构流水线重叠,消除资源“干等空转” 传统 GPU 管线中,物理步进(仿真)与策略学习(网络更新)是同步串行执行的。UniLab 采用了异步异构架构,实现了并行解耦:

  • CPU 侧:利用多核算力并行运行 MuJoCo 或 MotrixSim 等高保真物理引擎,负责环境仿真。
  • GPU 侧:专注于策略网络的梯度更新。
  • 数据流重叠(Overlapping):通过共享内存建立无锁的运行时缓冲区。当 GPU 正在执行当前 Batch 的网络更新时,CPU 阵列已经在异步并发地运行下一步环境仿真。这种机制消除了昂贵的数据跨总线搬运延迟,实现了计算资源的高度重叠利用。

2. 3 至 10 倍端到端加速与真机闭环验证 通过将仿真解耦到 CPU 侧,UniLab 带来了显著的系统级提速。在相同硬件的基准测试中,UniLab 达到相同目标奖励的端到端墙钟时间(Wall-clock Time)比传统方案快 3 至 10 倍。

  • 真机部署:团队已将 UniLab 训练的策略成功部署到 6 类真机任务上,覆盖了四足行走、人形全身运动追踪(包括翻跟头、攀爬)以及灵巧手操作,完成了从仿真到真机的完整闭环验证。
  • 极致效率:在 4090 + 9950×3d 的系统配置下,仅需 12 秒即可训练好四足行走,3 分钟即可让人形机器人 G1 学会走路。

3. 去 CUDA 依赖,Mac 本地高效训练 UniLab 彻底去除了对特定硬件的硬编码依赖,实现了跨平台全后端兼容,原生支持 CUDA、Apple、AMD 及 Intel 等多种后端,并无缝适配 PPO、APPO、SAC、TD3 等主流强化学习算法。

  • Mac 训练神器:在 Apple Silicon 平台上,UniLab 借助统一内存架构(UMA)的低延迟特性,使得 CPU 仿真与 GPU 学习之间的数据传输无需跨越 PCIe 总线,大幅降低了传输开销,让 Mac 本地训练人形机器人成为现实。
  • 全品类任务覆盖:基于统一的任务接口,UniLab 支持高动态人形动作跟踪(如 G1 Flip、G1 WallFlip、Dance)、高维接触的灵巧手精细操作(如 Sharpa hand)以及复杂的全身手脚协同(Loco-Manipulation)。
  • 工业级代码架构:提供零成本上手体验,用户可在 3 分钟内配好本地环境,5 分钟内运行第一个 demo,面向 AI-Native 的开发协作模式实现了模型和算法迁移的“零摩擦”。

关键要点

  • 架构革新:UniLab 打破了“GPU 包揽全部”的传统范式,构建了“CPU 高效仿真 + GPU 策略训练”的异构高吞吐训练底座。
  • 性能飞跃:通过异步异构架构和数据流重叠技术,实现了 3 至 10 倍的端到端训练速度提升。
  • 硬件解耦:不绑定 CUDA,原生支持 Apple Silicon、AMD、Intel 等后端,Mac 用户可利用 UMA 架构实现高效本地训练。
  • 任务广泛:覆盖四足行走、人形全身运动(含翻跟头、攀爬)、灵巧手操作及全身手脚协同等多种复杂运控任务。
  • 落地验证:训练策略已成功部署至 6 类真机任务,完成了仿真到真机的闭环验证。
  • 易用性:工业级代码架构,3 分钟配置环境,5 分钟运行 Demo,极大降低了开发门槛。
  • 开源状态:项目已正式开源,包含项目主页、论文链接及代码仓库。

意义与影响

UniLab 的开源标志着机器人强化学习训练进入了一个新的阶段。首先,它打破了 NVIDIA 生态的硬件垄断,使得研究者和企业可以在更广泛的硬件平台上(包括非 NVIDIA 显卡及 Mac 设备)进行高效的机器人训练,降低了具身智能研究的硬件门槛。其次,通过异构并行和流水线重叠技术,UniLab 显著提升了训练效率,将人形机器人运控训练时间缩短至分钟级,这对于需要大量试错的强化学习算法迭代具有革命性意义。

此外,UniLab 提供的工业级代码架构和全品类任务支持,加速了从算法研究到真机部署的转化过程。未来,该项目计划围绕接触密集型灵巧操作的物理保真度评测、算法 benchmark 以及多模态触觉策略等方向持续迭代,有望从一个高效训练系统扩展为通用的机器人学习研究平台,推动具身智能技术在更广泛场景下的落地与应用。

查看原文 →qbitai.com