全球首个人形机器人通用小脑发布,实现零样本泛化
速览
该成果标志着人形机器人正式迈入“GPT时代”。通过利用全球最大规模的2万小时人类动作数据进行训练,实现了模型的零样本泛化能力。这一突破将显著提升人形机器人在复杂环境中的适应性和通用性。
AI 深度解读
背景
随着具身智能(Embodied AI)的快速发展,人形机器人正逐步获得理解环境、理解任务以及执行复杂指令的能力。然而,要让机器人真正从实验室演示走向现实世界的生产力工具,仅靠负责感知、理解与决策的“大脑”是远远不够的。机器人还需要一个能够完成全身协调控制、实时运动执行与稳定身体控制的“小脑”。
这一“小脑”需要具备在毫秒级时间内完成全身数十个自由度协同控制、在复杂环境中保持平衡、在受到外部冲击时快速恢复稳定,并持续完成高动态、高精度动作任务的能力。这些能力共同决定了机器人能否突破实验室边界,进入真实应用场景。
在此背景下,银河通用机器人(Galbot)近日正式发布了 AstraBrain-WBC 0.5。这是银河星脑(AstraBrain)技术体系下,面向人形机器人全身实时运控的小脑基础模型。该模型的发布标志着人形机器人运动智能领域的一个重要技术里程碑,首次将 GPT 所代表的规模化训练范式引入机器人实时运控领域,为人形机器人迈入“GPT 时代”奠定了基础设施级的基础。
核心内容
AstraBrain-WBC 0.5 的核心突破在于其规模化的数据训练、架构创新以及由此带来的性能跃迁。
1. 行业最大规模的数据语料库 大模型的能力源于规模。为训练 AstraBrain-WBC 0.5,银河通用联合研究团队构建了目前行业最大规模的人形机器人动作训练数据集。
- 数据规模:累计汇聚约 2 万小时的人类动作数据,涵盖舞蹈、运动、日常行为、工业操作、协作搬运等丰富场景。
- 数据多样性:相比传统数据集中大量重复的行走、站立等高频动作,该数据集覆盖了复杂舞蹈、高动态运动、快速转向、跌倒恢复、协作搬运等大量长尾动作。其动作空间覆盖范围相比行业广泛使用的 AMASS 数据集提升了约 4 至 5 倍。
- 模型规模:基于约 20 亿帧人类动作数据训练,模型参数规模达到 8000 万级别(具体为 8040 万参数),是全球首个达到 GPT-1 量级的人形机器人全身实时运控大模型。相比之下,此前业内代表性工作如 GAE 和 SONIC 的训练数据仅为数千小时或几百小时,模型参数仅为千万级。
2. GPT 式架构的首次引入与 Scaling Law 验证 AstraBrain-WBC 0.5 彻底改变了传统人形机器人运控模型多采用浅层 MLP(多层感知机)网络的思路。
- 架构创新:团队首次采用 GPT 风格的因果 Transformer 架构,将机器人全身控制重新定义为一个连续序列预测问题。模型不再只关注当前时刻的动作,而是结合过去连续的动作历史,对未来动作趋势进行实时预测和控制。这种机制使机器人能够理解一段连续的运动“语义”,而非孤立动作。
- 专家蒸馏:研究团队构建了由 384 个动作专家组成的运动先验库,并通过蒸馏训练将其融合为统一控制模型,实现了从“专家技能集合”到“通用运动基础模型”的跃迁。
- Scaling Law 验证:该工作首次在人形机器人运控领域验证了类似 GPT 的发展规律。随着数据规模从百万级扩展至 20 亿帧、模型规模持续增长,模型性能持续提升,零样本泛化能力不断增强,未出现传统运控模型常见的性能瓶颈。
3. 四大核心能力突破 规模化训练带来的价值最终体现在具体的运动能力上,AstraBrain-WBC 0.5 展现了此前系统难以兼顾的四项核心能力:
- 更高自由度的全身协同控制:在 29 自由度机器人上实现了全身协同控制,能够完成手脚联动、重心切换、身体协调等复杂动作,保持自然稳定的表现。
- 更高动态运动能力与零样本泛化:实现了大量训练集中从未出现过的高动态动作的零样本执行。无论是篮球、拳击、舞蹈、翻身起立还是协作搬运,机器人均能直接完成,无需针对单个任务重新训练,展现出类似“运动泛化”的能力。
- 毫秒级实时响应:经过工程优化,在单张 RTX 4090 显卡上实现低于 1.5 毫秒的端到端推理延迟,整套动捕链路设备延迟小于 20 毫秒,可满足 50Hz 实时闭环控制需求。
- 前所未有的鲁棒性:通过大规模运动先验学习,机器人在快速运动、重心变化、复杂接触切换等场景中保持稳定控制。数据显示,随着数据规模扩展,模型零样本跟踪误差持续下降,成功率从 83.26% 提升至 92.58%。
关键要点
- 技术里程碑:AstraBrain-WBC 0.5 是银河星脑(AstraBrain)体系下的小脑基础模型,标志着人形机器人运动控制从“单技能训练”走向“运动基础模型”时代。
- 数据与参数量级:基于 2 万小时人类动作数据(约 20 亿帧)训练,参数规模达 8040 万,规模比肩 GPT-1,远超此前 GAE、SONIC 等竞品。
- 架构革新:首次采用因果 Transformer 架构替代传统浅层 MLP,将运控问题转化为连续序列预测问题,并验证了机器人运动控制领域的 Scaling Law。
- 零样本泛化能力:机器人能够直接执行训练集中未出现过的高动态动作(如篮球、拳击、舞蹈等),无需重新训练,实现了真正的运动泛化。
- 极致实时性:端到端推理延迟低于 1.5 毫秒(RTX 4090),支持 50Hz 实时闭环控制,满足真实世界应用的严苛实时性要求。
- 全面开源:相关论文、代码与技术成果已全面开源,旨在邀请全球开发者共建机器人基础模型生态。
意义与影响
AstraBrain-WBC 0.5 的发布不仅是银河通用在技术层面的突破,更对人形机器人产业和具身智能发展产生了深远影响。
1. 补齐具身智能的关键闭环 对于银河星脑(AstraBrain)而言,这一突破补齐了具身智能从认知到执行的关键闭环。具身智能不再仅停留在认知层面,而是具备了真正面向真实世界运行的基础能力支撑。
2. 确立基础模型驱动的新范式 对行业而言,它标志着人形机器人运动控制正在迈向基础模型驱动的新范式。能力增长路径首次变得清晰且可规模扩展,机器人不再局限于单一动作学习,而是逐步形成可泛化的通用运动生成与实时控制能力。
3. 打开商业化与应用想象空间 对产业与商业而言,AstraBrain-WBC 0.5 为人形机器人从“可演示”走向“可部署、可持续运行”提供了底层能力基础,打开了新的应用空间:
- 数据生成:作为运控基座模型,可生成高质量动作数据,大幅降低 VLA(视觉-语言-动作)操作数据的采集门槛。
- 创意内容实时生成:借助泛化的实时动作跟踪能力,开发者可快速生成舞蹈、演艺等复杂动作内容,实现“即想即有”。
- 高危场景替代:在应急救援、灾害现场搜救等高风险场景中,支持实时全身遥操作与复杂动作跟踪,使机器人能够率先进入危险区域执行任务。
4. 推动生态共建 通过全面开源,银河通用希望将 AstraBrain-WBC 0.5 打造为机器人运动基础模型发展的重要起点,邀请全球研究机构、高校、开发者及产业伙伴共同推动具身智能技术创新与产业落地,加速人形机器人进入零售、工业与服务场景。
