AI 资讯雷峰网·4 小时前

银河通用发布AstraBrain-WBC 0.5，刷新人形机器人运控纪录

原标题：超越 SONIC ！人形机器人通用小脑迎来 GPT 时刻

速览

银河通用在CVPR 2026发布全球首个人形通用小脑基座大模型AstraBrain-WBC 0.5。该模型引入20亿帧人类行为数据与GPT式因果Transformer架构，彻底摒弃传统MLP。真机实测显示，其零样本泛化成功率达92.58%，全面超越SONIC等现有最优方法。

AI 深度解读

超越 SONIC！人形机器人通用小脑迎来 GPT 时刻

背景

在人形机器人运动控制领域，长期存在一个难以调和的“不可能三角”：敏捷性、稳定性和泛化能力往往无法兼得。过去的技术路线中，部分方法能让机器人完成奔跑、跳跃或舞蹈等高动态动作，但在遇到复杂场景时容易失去平衡；另一些方法虽然泛化能力强，能跟踪开放的动作输入，却牺牲了动作的精度和质量。

随着大语言模型（LLM）和生成式 AI 在自然语言处理领域的突破，学术界开始探索将类似的“预训练+微调”范式引入机器人领域。2024年，伯克利团队提出的《Humanoid Locomotion as Next Token Prediction》论文首次将 GPT 的自回归预测思想引入机器人行走控制，证明了该范式在单一任务上的可行性。然而，这仅局限于相对简单的周期性行走任务。

在此背景下，银河通用（Galbot）联合研究团队在 CVPR 2026 上发布了全球首个人形通用小脑 GPT 基座大模型 AstraBrain-WBC 0.5。该模型引入了史上最大规模的人类行为数据集，旨在打破传统三层 MLP 的限制，实现人形机器人从“只会走”到“全身通用运动”的跨越。

核心内容

AstraBrain-WBC 0.5 是一个基于 GPT 式预训练的人形机器人全身运动控制基座模型。其核心设计理念是将人体全身运动视为一种“动作语言”，利用处理自然语言的技术手段来理解和生成运动轨迹。该模型通过三大核心阶段的系统工程，解决了数据稀缺、架构局限和训练不稳定等问题。

1. 数据基建：构建最大规模人类行为数据集

针对人形机器人运控数据稀缺且分布不均的问题，团队整合了 AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++ 等多个公开数据集，并补充了超过 1000 小时的高质量内部采集数据。所有数据经过统一重定向，适配宇树 G1 机器人的 29 自由度关节空间。

为解决不同动作频率、幅度和风格差异导致的“消化不良”问题，团队引入了 Harmonic Motion Embedding (HME，谐波运动嵌入) 技术。该技术基于动作的周期特征进行聚类，将约 20 亿帧原始数据切分为约 300 个运动簇。这一过程相当于对动作数据进行了“词性标注”和“句法分析”，确保了数据分布的均衡性，为后续训练提供了结构清晰的“词典”。

2. 架构改造：从 MLP 转向因果 Transformer

传统方案多采用浅层多层感知机（MLP），仅能捕捉当前几帧的局部信息，缺乏对长时上下文的理解。AstraBrain-WBC 0.5 彻底抛弃了 MLP，改用 Causal Transformer（因果 Transformer） 架构。

因果注意力机制：在线动作跟踪本质上是一个时序预测问题，机器人每一步决策依赖于过去的状态和历史动作。Causal Transformer 的“只能看过去、不能偷看未来”的特性，天然契合这一需求。
长记忆能力：相比 MLP 的“短视”，Transformer 能够捕捉更长的时间上下文，理解动作的连贯性和节奏感。例如，舞蹈动作的成功往往取决于几步之前的重心调整，Transformer 的长记忆能力使其能“复盘”历史，做出更连贯的决策。

3. 双阶段训练：专家蒸馏与通用化

团队采用了“先分后总”的双阶段训练策略，以平衡性能上限与通用性：

第一阶段（专家训练）：利用 HME 将动作分为 300 个簇，分别训练约 300 个基于 PPO（近端策略优化） 的运动专家。每个专家专注于某一类动作，将其性能提升至极限。此阶段消耗了大部分算力（15000 GPU 小时中的 75%）。
第二阶段（知识蒸馏）：使用 DAgger（数据集聚合） 算法，将 300 个专家的经验蒸馏到单一的 AstraBrain-WBC 0.5 模型中。为防止模型在蒸馏过程中出现分布偏移，团队通过收集学生模型的“犯错数据”并交由专家重新标注，实现了“专科会诊”向“全科医生”的转变。

4. 性能表现与工程优化

规模效应：AstraBrain-WBC 0.5 包含 80.4M 参数，训练数据规模达 20 亿帧（等效 20 亿 token），这一数据量级比肩 2018 年的 GPT-1。
零样本泛化：在零样本测试中，该模型在未见过的舞蹈动作跟踪中，MPJPE、MPJVE 等指标显著优于 SONIC、TWIST、Any2Track 等当前最优方法。成功率从传统三层 MLP 的 76.89% 跃升至 92.58%。
超低延迟：通过 ONNX 导出、TensorRT 编译及 C++ 流式数据通道等工程优化，模型在单张 RTX 4090 显卡上的端到端推理延迟低于 1.5 毫秒，优于传统方案 TWIST 在 CPU ONNX 上的 2.79—3.32 毫秒延迟。

关键要点

全球首个通用小脑基座：AstraBrain-WBC 0.5 是全球首个人形通用小脑 GPT 基座大模型，标志着人形机器人运控领域进入“规模即智能”时代。
史上最大数据集：引入 20 亿帧人类行为数据，比此前最常用的公开数据集 AMASS（约 720 万帧）高出两个数量级，是业内同类模型训练集的 200 倍以上。
Scaling Law 验证：实验证明，在人形运动控制领域，随着数据量和模型参数规模的扩大，性能持续提升，Scaling Law 真实存在。
架构突破：首次在人形运控中大规模应用 Transformer 替代 MLP，解决了传统模型在复杂动态动作（如武术、舞蹈）中僵硬、精度下降的问题。
零样本泛化能力：无需针对新任务进行微调，即可在室外泥地、家庭环境、高动态动作（篮球、武术）及抗干扰场景下保持鲁棒性。
工程落地可行：尽管模型参数量大，但通过工程优化实现了低于 1.5 毫秒的极低推理延迟，满足实时控制的严苛要求。
银河星脑的核心拼图：AstraBrain-WBC 0.5 是银河通用“银河星脑”系统中的“小脑”部分，负责将高层指令转化为具体的全身关节运动，补齐了全身全手端到端具身大模型的关键一环。

意义与影响

学术意义：确立可扩展的技术路径 AstraBrain-WBC 0.5 的发布在人形机器人运控领域具有里程碑意义。它证明了通过引入 GPT 式的预训练范式、海量均衡数据和因果 Transformer 架构，可以解决长期困扰领域的“敏捷-稳定-泛化”不可能三角。这为后续研究提供了一条可复制、可扩展的技术路书，类似于 2018 年 GPT-1 在自然语言处理领域的奠基作用。

产业价值：重构商业模型与降低门槛

降低研发成本：作为一个预训练的通用运控基座，开发者无需为每个新场景重新投入研发成本，只需进行零样本跟踪或轻量级适配。这大幅降低了人形机器人应用的研发门槛。
提升商业效率：零样本泛化能力缩短了客户验证周期，使机器人应用从“定制开发”转向“即插即用”。边际成本随部署规模递减，有望复制软件行业的规模化扩张路径，提升毛利率。
拓展应用场景：
- 娱乐与表演：支持一键生成复杂拟人化表演，舞蹈编导可远程实时复现动作，应用于影视制作或主题公园。

查看原文 →leiphone.com