← 返回信息流
AI 资讯雷峰网·3 小时前

银河通用王鹤:具身智能正迈向AlphaGo与ChatGPT时刻

原标题:银河通用创始人王鹤:具身智能正迈向专属的「AlphaGo时刻」与「ChatGPT时刻」 | ICRA 2026

速览

银河通用创始人王鹤在ICRA 2026发表主题演讲,指出具身智能正迈向专属的“AlphaGo时刻”与“ChatGPT时刻”。在AlphaGo时刻方面,银河通用实现了完全自主的人形机器人网球对抗及基于灵巧世界模型的精密工具操作。在ChatGPT时刻方面,公司提出结合VLA与世界模型的“世界动作模型(WAM)”,其LDA模型具备长周期任务推演及跨构型泛化能力,已在便利店、宁德时代等场景落地。王鹤总结认为,WAM大脑与端到端控制器结合将引爆第四次工业革命。

AI 深度解读

背景

2026年6月3日,国际机器人与自动化会议(ICRA 2026)在奥地利维也纳举行。在大会的“行业主题演讲”环节,具身智能领域知名学者、银河通用(Galbot)创始人兼CTO王鹤发表了题为《Towards the AlphaGo and ChatGPT Moments of Embodied AI》的主题演讲。

银河通用(Galbot)是一家致力于开发通用机器人和具身基础模型的独角兽初创公司,其使命是让通用机器人赋能千行百业并走进千家万户。王鹤在演讲中通过回顾数字AI从“AlphaGo时刻”到“ChatGPT时刻”的演进路径,论证了具身智能正在遵循相似的发展逻辑,并指出银河通用已通过两大技术突破触及具身智能的“AlphaGo时刻”,同时提出了迈向“ChatGPT时刻”的技术路线。

核心内容

王鹤在演讲中将具身智能的发展划分为两个关键阶段,分别对应数字AI历史上的里程碑事件,并详细阐述了银河通用在两个阶段的技术突破与落地成果。

1. 具身智能的“AlphaGo时刻”:极致协调与灵巧操作

王鹤认为,实现具身智能的“AlphaGo时刻”需要选择一个足够复杂、需要极高全身协调能力且策略复杂的任务。银河通用选择了网球作为这一突破点。

  • 自主网球对抗与Sim2Real迁移: 银河通用实现了完全自主的人形机器人与人类进行真实的网球对抗,全程无遥操作。这一突破不仅体现在身体协调上,更体现在高阶策略上。与在纯数字世界下棋的AlphaGo不同,物理世界的Sim2Real(仿真到现实迁移)难度极高。银河通用利用内部仿真平台支持强化学习训练,其策略模型可直接部署在现实世界,无需任何微调即可成功回球并击败人类对手。
  • 灵巧手摆脱遥操作依赖: 针对手部精细操作,银河通用让机器人灵巧手像人一样使用螺丝刀进行精密装配,并展示了使用刀具、锤子甚至安装桌腿等连续灵巧盘玩(In-hand manipulation)能力。
  • 技术路径差异: 王鹤指出,部分竞品(如Figure机器人)依赖遥操作收集数据,导致动作僵硬(如拧瓶盖时手腕整体旋转而非手指协调)。而银河通用采用强化学习(RL),使手指间产生自然协调。此外,针对接触丰富(Contact-rich)的任务,团队在仿真器中学习后,部署到现实世界获取展开轨迹,利用这些现实轨迹训练“灵巧世界模型”,基于神经动力学的残差预测大幅改进策略,从而首次在现实世界中实现了连续的灵巧操作。

2. 迈向具身智能的“ChatGPT时刻”:世界动作模型(WAM)

面向更通用的能力,王鹤提出构建结合视觉-语言-动作(VLA)和世界模型的“世界动作模型”(World Action Model, WAM)。银河通用早在ICCV等顶级会议论文中便定义了这一概念,并在arXiv上发布了相关早期研究。

  • LDA模型与隐空间推演: 银河通用最新的世界动作模型称为LDA(Latent Dynamics Action Model)。该模型实现了从“像素空间想象”到“隐空间想象”(即DINO空间)的跨越。
  • 长周期任务执行: LDA模型允许执行超长周期任务。例如,机器人可完全自主完成煎牛排的全过程:加速使用平底锅、抓起牛排、翻面、移出、放置盘中、松开夹子并撒调料。
  • 多任务与跨构型泛化: 单一模型展现出强大的多任务能力,涵盖捡起碎玻璃、叠衣服、货架拣货补货、穿肉串等。同时,模型具备跨机器人构型泛化能力,可适配带轮子的长臂机器人、带腿的短臂机器人以及宇树(Unitree)的G1系列机器人。
  • 真实场景落地:
    • 全家便利店(Family Mart): 全球首家由人形机器人运营的全家便利店,机器人进行货架拣货。
    • 物流仓储: 在数十万平米的厂区中经过多次迭代部署。
    • 宁德时代(CATL): 重载机器人部署于宁德时代,可搬运50公斤重物,处于完全自主模式,并能自动更换电池,实现每天24小时有效工作。

3. 通往AGI的技术架构与数据基础设施

王鹤总结,要迎来ChatGPT时刻,需将“大脑”与“小脑”结合,并构建全面的数据基础设施。

  • 大脑与小脑结合: “大脑”为WAM(世界动作模型),“小脑”为全身、全手的端到端(End-to-end)控制器。两者均通过神经网络进行端到端训练。
  • 海量多维数据驱动: 核心燃料包括仿真数据、现实世界遥操作数据、第一人称视角数据(Egocentric data,银河通用自2022年CVPR论文起便开展研究)、互联网数据、跨构型仿真数据以及基于策略(On-policy)的强化学习奖励数据。

关键要点

  • 里程碑定义: 具身智能正遵循数字AI的发展路径,从单一复杂任务的突破(AlphaGo时刻)迈向通用基础模型的规模化扩展(ChatGPT时刻)。
  • 网球对抗突破: 银河通用实现了完全自主的人形机器人网球对抗,无需微调即可将仿真策略迁移至现实世界,解决了高难度的Sim2Real问题。
  • 灵巧操作革新: 摒弃依赖遥操作的数据收集方式,采用强化学习结合“灵巧世界模型”,实现了如拧瓶盖、使用工具等需要高接触丰富度的自然灵巧操作。
  • WAM模型架构: 提出结合VLA与世界模型的“世界动作模型”(WAM),最新LDA模型在隐空间(DINO空间)进行推演,支持超长周期任务执行。
  • 泛化与落地能力: 模型具备跨机器人构型(包括轮式、腿式及Unitree G1)的泛化能力,并已在全家便利店、物流仓储、宁德时代等真实商业场景中实现全自主落地。
  • 数据金字塔: 构建了包含互联网、第一人称视角、仿真、遥操作及RL奖励数据的全面数据基础设施,作为推动技术演进的核心燃料。
  • 未来展望: 通过WAM(大脑)与端到端控制器(小脑)的结合,具身智能将引爆第四次工业革命,实现智能手机般的普及规模和汽车般的硬件价格。

意义与影响

王鹤的演讲揭示了具身智能从实验室演示向工业化、通用化应用迈进的关键转折点。

首先,技术可行性的验证。通过网球对抗和灵巧手操作,银河通用证明了具身智能在物理世界中处理高动态、高协调性任务的可行性,特别是Sim2Real技术的成熟,解决了长期困扰机器人的现实部署难题。

其次,通用基础模型的雏形显现。LDA模型在隐空间中的推演能力以及跨构型泛化能力,表明具身智能正在摆脱“专用工具”的属性,向具备广泛适应性的“通用基础模型”演进。这与大语言模型(LLM)的发展路径高度一致,预示着具身智能将迎来类似ChatGPT的爆发期。

最后,商业闭环的初步形成。机器人进入全家便利店、宁德时代等场景并实现24小时自主工作,标志着具身智能不再仅仅是技术展示,而是开始产生实际的经济价值。这种“大脑+小脑”结合加“海量数据驱动”的技术路线,为整个行业提供了清晰的发展范式,有望加速第四次工业革命的进程,推动通用机器人真正走进千家万户。

查看原文 →leiphone.com