← 返回信息流
AI 资讯雷峰网·4 小时前

银河通用发布AstraBrain-WBC 0.5,刷新人形机器人运控纪录

原标题:超越 SONIC !人形机器人通用小脑迎来 GPT 时刻

速览

银河通用在CVPR 2026发布全球首个人形通用小脑基座大模型AstraBrain-WBC 0.5。该模型引入20亿帧人类行为数据与GPT式因果Transformer架构,彻底摒弃传统MLP。真机实测显示,其零样本泛化成功率达92.58%,全面超越SONIC等现有最优方法。

AI 深度解读

超越 SONIC!人形机器人通用小脑迎来 GPT 时刻

背景

在人形机器人运动控制领域,长期存在一个难以调和的“不可能三角”:敏捷性、稳定性和泛化能力往往无法兼得。过去的技术路线中,部分方法能让机器人完成奔跑、跳跃或舞蹈等高动态动作,但在遇到复杂场景时容易失去平衡;另一些方法虽然泛化能力强,能跟踪开放的动作输入,却牺牲了动作的精度和质量。

随着大语言模型(LLM)和生成式 AI 在自然语言处理领域的突破,学术界开始探索将类似的“预训练+微调”范式引入机器人领域。2024年,伯克利团队提出的《Humanoid Locomotion as Next Token Prediction》论文首次将 GPT 的自回归预测思想引入机器人行走控制,证明了该范式在单一任务上的可行性。然而,这仅局限于相对简单的周期性行走任务。

在此背景下,银河通用(Galbot)联合研究团队在 CVPR 2026 上发布了全球首个人形通用小脑 GPT 基座大模型 AstraBrain-WBC 0.5。该模型引入了史上最大规模的人类行为数据集,旨在打破传统三层 MLP 的限制,实现人形机器人从“只会走”到“全身通用运动”的跨越。

核心内容

AstraBrain-WBC 0.5 是一个基于 GPT 式预训练的人形机器人全身运动控制基座模型。其核心设计理念是将人体全身运动视为一种“动作语言”,利用处理自然语言的技术手段来理解和生成运动轨迹。该模型通过三大核心阶段的系统工程,解决了数据稀缺、架构局限和训练不稳定等问题。

1. 数据基建:构建最大规模人类行为数据集

针对人形机器人运控数据稀缺且分布不均的问题,团队整合了 AMASSLAFAN1MotionMillionPHUMAMotion-X++ 等多个公开数据集,并补充了超过 1000 小时的高质量内部采集数据。所有数据经过统一重定向,适配宇树 G1 机器人的 29 自由度关节空间。

为解决不同动作频率、幅度和风格差异导致的“消化不良”问题,团队引入了 Harmonic Motion Embedding (HME,谐波运动嵌入) 技术。该技术基于动作的周期特征进行聚类,将约 20 亿帧原始数据切分为约 300 个运动簇。这一过程相当于对动作数据进行了“词性标注”和“句法分析”,确保了数据分布的均衡性,为后续训练提供了结构清晰的“词典”。

2. 架构改造:从 MLP 转向因果 Transformer

传统方案多采用浅层多层感知机(MLP),仅能捕捉当前几帧的局部信息,缺乏对长时上下文的理解。AstraBrain-WBC 0.5 彻底抛弃了 MLP,改用 Causal Transformer(因果 Transformer) 架构。

  • 因果注意力机制:在线动作跟踪本质上是一个时序预测问题,机器人每一步决策依赖于过去的状态和历史动作。Causal Transformer 的“只能看过去、不能偷看未来”的特性,天然契合这一需求。
  • 长记忆能力:相比 MLP 的“短视”,Transformer 能够捕捉更长的时间上下文,理解动作的连贯性和节奏感。例如,舞蹈动作的成功往往取决于几步之前的重心调整,Transformer 的长记忆能力使其能“复盘”历史,做出更连贯的决策。

3. 双阶段训练:专家蒸馏与通用化

团队采用了“先分后总”的双阶段训练策略,以平衡性能上限与通用性:

  • 第一阶段(专家训练):利用 HME 将动作分为 300 个簇,分别训练约 300 个基于 PPO(近端策略优化) 的运动专家。每个专家专注于某一类动作,将其性能提升至极限。此阶段消耗了大部分算力(15000 GPU 小时中的 75%)。
  • 第二阶段(知识蒸馏):使用 DAgger(数据集聚合) 算法,将 300 个专家的经验蒸馏到单一的 AstraBrain-WBC 0.5 模型中。为防止模型在蒸馏过程中出现分布偏移,团队通过收集学生模型的“犯错数据”并交由专家重新标注,实现了“专科会诊”向“全科医生”的转变。

4. 性能表现与工程优化

  • 规模效应:AstraBrain-WBC 0.5 包含 80.4M 参数,训练数据规模达 20 亿帧(等效 20 亿 token),这一数据量级比肩 2018 年的 GPT-1。
  • 零样本泛化:在零样本测试中,该模型在未见过的舞蹈动作跟踪中,MPJPE、MPJVE 等指标显著优于 SONICTWISTAny2Track 等当前最优方法。成功率从传统三层 MLP 的 76.89% 跃升至 92.58%。
  • 超低延迟:通过 ONNX 导出、TensorRT 编译及 C++ 流式数据通道等工程优化,模型在单张 RTX 4090 显卡上的端到端推理延迟低于 1.5 毫秒,优于传统方案 TWIST 在 CPU ONNX 上的 2.79—3.32 毫秒延迟。

关键要点

  • 全球首个通用小脑基座:AstraBrain-WBC 0.5 是全球首个人形通用小脑 GPT 基座大模型,标志着人形机器人运控领域进入“规模即智能”时代。
  • 史上最大数据集:引入 20 亿帧人类行为数据,比此前最常用的公开数据集 AMASS(约 720 万帧)高出两个数量级,是业内同类模型训练集的 200 倍以上。
  • Scaling Law 验证:实验证明,在人形运动控制领域,随着数据量和模型参数规模的扩大,性能持续提升,Scaling Law 真实存在。
  • 架构突破:首次在人形运控中大规模应用 Transformer 替代 MLP,解决了传统模型在复杂动态动作(如武术、舞蹈)中僵硬、精度下降的问题。
  • 零样本泛化能力:无需针对新任务进行微调,即可在室外泥地、家庭环境、高动态动作(篮球、武术)及抗干扰场景下保持鲁棒性。
  • 工程落地可行:尽管模型参数量大,但通过工程优化实现了低于 1.5 毫秒的极低推理延迟,满足实时控制的严苛要求。
  • 银河星脑的核心拼图:AstraBrain-WBC 0.5 是银河通用“银河星脑”系统中的“小脑”部分,负责将高层指令转化为具体的全身关节运动,补齐了全身全手端到端具身大模型的关键一环。

意义与影响

学术意义:确立可扩展的技术路径 AstraBrain-WBC 0.5 的发布在人形机器人运控领域具有里程碑意义。它证明了通过引入 GPT 式的预训练范式、海量均衡数据和因果 Transformer 架构,可以解决长期困扰领域的“敏捷-稳定-泛化”不可能三角。这为后续研究提供了一条可复制、可扩展的技术路书,类似于 2018 年 GPT-1 在自然语言处理领域的奠基作用。

产业价值:重构商业模型与降低门槛

  1. 降低研发成本:作为一个预训练的通用运控基座,开发者无需为每个新场景重新投入研发成本,只需进行零样本跟踪或轻量级适配。这大幅降低了人形机器人应用的研发门槛。
  2. 提升商业效率:零样本泛化能力缩短了客户验证周期,使机器人应用从“定制开发”转向“即插即用”。边际成本随部署规模递减,有望复制软件行业的规模化扩张路径,提升毛利率。
  3. 拓展应用场景
    • 娱乐与表演:支持一键生成复杂拟人化表演,舞蹈编导可远程实时复现动作,应用于影视制作或主题公园。

查看原文 →leiphone.com