AI 资讯量子位·2 天前

清华AIR开源UniLab：人形机器人训练提速10倍，Mac可跑

原标题：机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑

速览

清华大学AIR实验室开源了全新的机器人强化学习训练架构UniLab。该架构大幅优化了训练效率，使人形机器人的运控训练时间缩短至3分钟，速度提升10倍。此外，UniLab兼容Mac平台，降低了硬件门槛，推动了机器人AI技术的普及与应用。

AI 深度解读

背景

在具身智能（Embodied AI）与机器人强化学习领域，训练效率一直是制约技术落地的关键瓶颈。长期以来，行业内的主流框架如 IsaacLab、MuJoCo Playground 以及 mjlab 等，普遍遵循“将计算全部塞进 GPU”的范式。这种设计虽然直观，但导致系统牢牢绑定在 NVIDIA 生态及 CUDA 硬件上，且由于物理仿真与策略学习在同一块显卡上串行执行，造成了 CPU 多核算力闲置与 GPU 资源争抢并存的低效局面。这种“单极化”的计算架构不仅限制了硬件选择的多样性，也大幅增加了训练的时间成本。

在此背景下，清华大学智能产业研究院（AIR）DISCOVER Lab 联合清华大学、上海交通大学、上海创智学院等多所高校，以及谋先飞技术、求之科技、原力灵机等企业，正式推出了全新的机器人强化学习训练架构——UniLab。该架构旨在打破传统范式，通过重构系统底层结构，实现异构并行计算，从而将机器人运控训练带入“分钟级”时代。

核心内容

UniLab 的核心创新在于其“CPU 高效仿真 + GPU 策略训练”的异构高吞吐训练底座。团队并未简单叠加硬件资源，而是从底层重新组织了仿真、数据采集与策略学习之间的系统结构，主要包含以下三大突破：

1. 异构流水线重叠，消除资源“干等空转” 传统 GPU 管线中，物理步进（仿真）与策略学习（网络更新）是同步串行执行的。UniLab 采用了异步异构架构，实现了并行解耦：

CPU 侧：利用多核算力并行运行 MuJoCo 或 MotrixSim 等高保真物理引擎，负责环境仿真。
GPU 侧：专注于策略网络的梯度更新。
数据流重叠（Overlapping）：通过共享内存建立无锁的运行时缓冲区。当 GPU 正在执行当前 Batch 的网络更新时，CPU 阵列已经在异步并发地运行下一步环境仿真。这种机制消除了昂贵的数据跨总线搬运延迟，实现了计算资源的高度重叠利用。

2. 3 至 10 倍端到端加速与真机闭环验证 通过将仿真解耦到 CPU 侧，UniLab 带来了显著的系统级提速。在相同硬件的基准测试中，UniLab 达到相同目标奖励的端到端墙钟时间（Wall-clock Time）比传统方案快 3 至 10 倍。

真机部署：团队已将 UniLab 训练的策略成功部署到 6 类真机任务上，覆盖了四足行走、人形全身运动追踪（包括翻跟头、攀爬）以及灵巧手操作，完成了从仿真到真机的完整闭环验证。
极致效率：在 4090 + 9950×3d 的系统配置下，仅需 12 秒即可训练好四足行走，3 分钟即可让人形机器人 G1 学会走路。

3. 去 CUDA 依赖，Mac 本地高效训练 UniLab 彻底去除了对特定硬件的硬编码依赖，实现了跨平台全后端兼容，原生支持 CUDA、Apple、AMD 及 Intel 等多种后端，并无缝适配 PPO、APPO、SAC、TD3 等主流强化学习算法。

Mac 训练神器：在 Apple Silicon 平台上，UniLab 借助统一内存架构（UMA）的低延迟特性，使得 CPU 仿真与 GPU 学习之间的数据传输无需跨越 PCIe 总线，大幅降低了传输开销，让 Mac 本地训练人形机器人成为现实。
全品类任务覆盖：基于统一的任务接口，UniLab 支持高动态人形动作跟踪（如 G1 Flip、G1 WallFlip、Dance）、高维接触的灵巧手精细操作（如 Sharpa hand）以及复杂的全身手脚协同（Loco-Manipulation）。
工业级代码架构：提供零成本上手体验，用户可在 3 分钟内配好本地环境，5 分钟内运行第一个 demo，面向 AI-Native 的开发协作模式实现了模型和算法迁移的“零摩擦”。

关键要点

架构革新：UniLab 打破了“GPU 包揽全部”的传统范式，构建了“CPU 高效仿真 + GPU 策略训练”的异构高吞吐训练底座。
性能飞跃：通过异步异构架构和数据流重叠技术，实现了 3 至 10 倍的端到端训练速度提升。
硬件解耦：不绑定 CUDA，原生支持 Apple Silicon、AMD、Intel 等后端，Mac 用户可利用 UMA 架构实现高效本地训练。
任务广泛：覆盖四足行走、人形全身运动（含翻跟头、攀爬）、灵巧手操作及全身手脚协同等多种复杂运控任务。
落地验证：训练策略已成功部署至 6 类真机任务，完成了仿真到真机的闭环验证。
易用性：工业级代码架构，3 分钟配置环境，5 分钟运行 Demo，极大降低了开发门槛。
开源状态：项目已正式开源，包含项目主页、论文链接及代码仓库。

意义与影响

UniLab 的开源标志着机器人强化学习训练进入了一个新的阶段。首先，它打破了 NVIDIA 生态的硬件垄断，使得研究者和企业可以在更广泛的硬件平台上（包括非 NVIDIA 显卡及 Mac 设备）进行高效的机器人训练，降低了具身智能研究的硬件门槛。其次，通过异构并行和流水线重叠技术，UniLab 显著提升了训练效率，将人形机器人运控训练时间缩短至分钟级，这对于需要大量试错的强化学习算法迭代具有革命性意义。

此外，UniLab 提供的工业级代码架构和全品类任务支持，加速了从算法研究到真机部署的转化过程。未来，该项目计划围绕接触密集型灵巧操作的物理保真度评测、算法 benchmark 以及多模态触觉策略等方向持续迭代，有望从一个高效训练系统扩展为通用的机器人学习研究平台，推动具身智能技术在更广泛场景下的落地与应用。

查看原文 →qbitai.com

清华AIR开源UniLab：人形机器人训练提速10倍，Mac可跑

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐