AI 资讯雷峰网·3 天前

星海图新一代具身基础模型G0.5发布，全面提升零样本泛化能力，让机器人边思考边行动

AI 深度解读

背景

具身智能（Embodied AI）的核心挑战之一在于如何让机器人从“机械执行”进化为“理解与思考”。过去，机器人面对如“帮我把毛巾放进洗手池”这类指令时，往往只能机械地执行预设动作序列。这种模式依赖于针对特定场景、特定物体和特定指令的专门微调，导致模型泛化能力极差：一旦环境布局、物体类别或指令组合发生变化，机器人便难以适应。

星海图（Galaxea）发布的新一代具身基础模型 G0.5，旨在解决这一痛点。该模型基于 VLA（视觉-语言-行动）架构，试图打破推理模块与动作模块之间的壁垒，实现“边思考边行动”（Think While Acting）。G0.5 强调零样本（Zero-shot）泛化能力，即模型在未经过特定场景微调的情况下，仅凭自然语言指令即可驱动机器人完成复杂操作任务，实现真正的“开箱即用”。

核心内容

G0.5 的技术突破主要体现在架构设计的三个核心维度，旨在统一异构动作空间、融合推理与行动、并增强时空上下文感知能力。

1. 统一异构动作编解码器

不同形态的机器人（如双臂人形、移动底盘、单臂工业机器人）具有不同的自由度和控制频率。传统做法通常是为每种本体单独建立离散化流水线，或者将所有自由度拍平为长向量进行量化。前者导致知识无法跨本体共享，后者则造成 Token 数量随自由度线性膨胀，造成计算浪费且语义纠缠。

G0.5 设计了一套统一的异构动作编解码器，使得模型能够使用一套动作词表涵盖从桌面双臂到全身移动操作的各类本体。这种设计不仅控制了自回归解码的额外开销，更关键的是让 VLM（视觉语言模型）重新回归“动作生成者”的位置，而非退化为条件编码器。

2. 原生动作思维链（Native Action Chain of Thought）

现有工作通常将链式思维（CoT）作为训练时的辅助任务，推理模块与动作模块参数割裂，推理结果需压缩为隐状态才能影响动作，导致语义损失和延迟。

G0.5 将 CoT 与动作生成融合在同一个自回归流中。模型在输出动作 Token 之前，会先输出子任务分解、目标物体框、2D 轨迹提示等推理结果。这种设计带来了两大收益：

长程任务的零样本分解能力：在 BEHAVIOR-1K 等需要将指令拆解为数十个子步骤的家居任务中，G0.5 仅需训练一个 epoch 即超越训练四个 epoch 的 π0.5 模型，以及由四个 checkpoint 组成的挑战赛冠军方案。
语言对行为的实时塑造：由于 Prompt 直接进入与动作 Token 同一条自回归流，自然语言可以在推理时连续调制动作分布。例如，在“打开烤面包机开关”任务中，若追加指令“push harder”，模型能实时调整按压力度以触发开关，无需重新训练。

3. 时空注意力模块

真实家居任务中，视线遮挡或意外失败会导致单帧画面信息不足。G0.5 配备了轻量级时空注意力模块，融合数秒的历史视觉信息，赋予模型空间感知先验。这使得模型在局部视野丢失时仍能稳健执行任务。实验表明，G0.5 在 BEHAVIOR-1K 的“移动箱子”、“装车”、“搬木柴”等长程任务上稳定优于 π0.5。

关键要点

架构革新：G0.5 不再将 VLM 仅视为编码器，而是让其重新成为行动者；不再割裂推理与动作，而是通过原生动作思维链实现“边思考边行动”。
零样本泛化：在 DROID（Franka）和 PP Bench（R1 Lite）的零样本实验中，G0.5 无需微调即可直接迁移到不同机器人平台和新环境。在 DROID 10 个桌面操作任务中，平均成功率达 82.5%，逐任务均优于 π0.5-DROID 与 MolmoAct2-DROID。
性能领先：
- 在真实世界微调评测中，G0.5 在 R1 Pro/R1 Lite 的六个任务-本体设置上，成功率和过程分整体大幅领先 π0.5 与 GR00T-N1.7。
- 在 Pick-and-Place 基准中，从零样本到 50 小时训练，G0.5 在“语言跟随率”与“任务成功率”上各数据规模均优于 π0.5。
- 在 BEHAVIOR-1K 挑战赛评测中，G0.5 仅凭单一模型权重，后训练 1 个 epoch 即显著超越多模型集成冠军方案与 π0.5，并在 4 个 epoch 下进一步提升性能上限。
预训练范式有效性：大规模预训练使 G0.5 获得了可迁移、可组合的操作智能。抓取、放置、推拉等原子动作沉淀为可复用的能力单元，使得模型在面对新场景、新物体时，仅凭自然语言指令即可分解动作并执行。
开源与部署：技术报告已公开，后续模型开源后将支持在多种本体上的“开箱即用”部署，助力开发者落地实践。

意义与影响

G0.5 的发布标志着具身基础模型从“专用微调”向“通用泛化”迈出了关键一步。其核心价值在于验证了基于结构化动作空间与视觉记忆的预训练先验，是模型跨越长程移动操作鸿沟、实现高效泛化的核心所在。

通过统一异构动作编解码器和原生动作思维链，G0.5 解决了以往机器人智能中推理与执行脱节、泛化能力弱的难题。这不仅提升了机器人在复杂动态环境中的鲁棒性，也为通用具身智能提供了一条可扩展的模型和数据路径。随着后续模型的开源，G0.5 有望降低机器人开发门槛，加速具身智能在家庭服务、工业制造等场景的规模化落地。

查看原文 →leiphone.com