AI 资讯雷峰网·2 小时前

复旦等提出GuidedVLA，以显式引导提升VLA可控可解释性

原标题：让机器人行动更有依据：复旦等提出 GuidedVLA，提升 VLA 可控可解释能力

速览

复旦大学等机构提出GuidedVLA，被RSS 2026接收。该工作通过Object、Skill、Depth三类显式引导，解决VLA动作生成隐式难解释问题。实验显示其在仿真和真实机器人平台均显著优于基线，且具备良好可解释性。

AI 深度解读

背景

随着具身智能（Embodied AI）从实验室走向更复杂的真实环境，机器人面临的挑战已不再仅仅是“能否完成单一动作”，而是如何在动态、非理想条件下稳定执行长程任务。视觉-语言-动作模型（VLA）作为连接视觉理解、语言指令与动作生成的核心架构，虽然在统一模型结构和吸收多模态知识方面优势明显，但在端到端训练框架下，其动作生成过程往往高度隐式。

在真实场景中，桌面杂乱、光照变化、目标物体透明或难以定位、任务步骤冗长等因素，极易导致机器人判断失误。例如，模型可能无法准确判断该看哪里、当前处于任务的哪个阶段，或空间位置是否精确。这种“黑盒”特性使得研究者和工程团队难以诊断失败原因、改进模型，也难以将系统部署到更多变化场景中。因此，提升 VLA 的可控性与可解释性，成为其走向复杂真实任务的关键瓶颈。

核心内容

针对上述挑战，复旦大学可信具身智能研究院联合上海交通大学、香港大学 OpenDriveLab 等机构提出了 GuidedVLA。该工作已被 Robotics: Science and Systems (RSS) 2026 接收，并开源了论文、代码、模型权重及数据集。GuidedVLA 的核心理念是在 VLA 的动作生成过程中引入显式引导，将任务相关因素拆解为更清晰、可检查的分工，从而让机器人的行动更有依据。

1. 三大显式引导机制

GuidedVLA 在动作解码器中指定特定的注意力头，分别关注以下三类任务关键因素：

Object Head（目标定位）：负责锁定任务相关物体区域（如抓取物、放置点），抑制背景和干扰物的影响。这对于杂乱桌面、小目标或透明物体等场景至关重要，确保机器人“看准目标”。
Skill Head（阶段识别）：负责识别当前任务所处的阶段（如抓取、移动、放置）。在多阶段任务中，这能防止模型提前跳步或在最后阶段失败，使动作生成对任务进度保持敏感。
Depth Head（空间几何）：负责补充 3D 空间几何信息。通过接入冻结的深度编码器特征，让特定注意力头处理高度、距离、插入角度等精确的空间线索，解决因空间估计不准导致的操作失败。

2. 技术实现：残差适配与自动标注

非破坏性改造：采用类似 ControlNet 的残差适配思路。保留原有的主注意力分支，新增 factor-specific 控制分支，并通过 zero-initialized projection 与主分支融合。这意味着新分支在训练初期不会扰动原模型已学到的能力，随着训练推进再逐步注入引导信息，无需从零重建系统。
自动化标注流水线：为降低标注成本，团队设计了自动标注流程：
- 物体掩码由 Qwen3-VL 生成 point prompts，再经 SAM2 在视频段中传播。
- 技能标签由 Qwen3-VL 根据阶段描述生成。
- 深度引导直接使用冻结深度编码器特征，无需人工深度标注。
- 效率数据：92% 的 episodes 无需人工修正；标注 50 个 episodes 时，自动流水线仅需约 4 分钟，而纯人工需 43.5 分钟。

3. 实验验证

GuidedVLA 在仿真基准和真实机器人平台上均表现出显著优势：

仿真基准 LIBERO-Plus：在相机视角、光照、背景纹理等 7 类扰动下，GuidedVLA 总成功率达到 75.4%，优于基线 π0 的 68.2%。单类分工在对应任务类型上表现更佳（如 Object Head 在物体任务、Skill Head 在阶段任务、Depth Head 在空间任务中优势明显）。
RoboTwin 2.0：在 8 个随机化、未见设置的操作任务中，平均成功率从 π0 的 77.38% 提升至 90.63%。例如，在需要精确 Z 轴控制的 Click Bell 任务中，Depth Head 将成功率从 35% 提升至 63%。
真实机器人平台：
- ALOHA AgileX（家庭任务：分拣、叠碗、清洁）和 PSI-Bot RealMan（实验室任务：烧杯操作）。
- 在三类设置下，GuidedVLA 均优于 Base Policy：
  - In-Domain average：75.8% vs 55.8%
  - Scene average：67.5% vs 44.2%（相对提升约 52.7%）
  - Lighting average：79.2% vs 57.5%

4. 可解释性验证

研究进一步验证了可解释分工与任务成功的强相关性：

当 Object Head 落在目标区域内的注意力比例从 0.25 增加到 1.0，成功率从 61.3% 提升至 77.4%。
当 Skill Head 技能识别准确率提高，成功率从 66.2% 提升至 77.7%。
当 Depth Head 中真实深度特征比例从 0 增加到 1.0，成功率从 15.0% 大幅提升至 76.2%。

关键要点

显式解耦：GuidedVLA 将 VLA 隐式的动作生成过程解耦为“目标、阶段、空间”三个显式维度，通过特定的注意力头进行专门化处理。
即插即用：采用残差适配架构，在不破坏预训练 VLA 原有能力的前提下，通过新增控制分支注入引导信息，兼容性好且易于集成。
低成本标注：利用 Qwen3-VL 和 SAM2 等现有模型构建自动化标注流水线，大幅降低了训练数据的制作成本和时间。
诊断价值：不仅提升了最终任务成功率，更重要的是提供了可观察的中间指标。当机器人失败时，研究者可以明确判断问题是出在目标定位、阶段理解还是空间估计，从而进行针对性优化。
广泛适用性：实验覆盖从仿真环境到真实家庭及实验室场景，证明了该方法在应对光照变化、物体透明、几何约束复杂等真实挑战时的鲁棒性。

意义与影响

GuidedVLA 的提出为具身智能领域提供了一条务实且高效的技术路线。

首先，它解决了 VLA 模型在复杂真实环境中“黑盒”决策的痛点。通过引入可控可解释的机制，使得机器人不仅“能行动”，而且“行动有据”，极大地增强了系统的可信度和安全性。

其次，从工程落地角度看，这种模块化、可诊断的设计降低了系统迭代和维护的门槛。开发者无需重新训练整个大模型，即可通过调整或检查特定注意力头来优化性能，加速了具身智能从实验室走向商业化应用的进程。

最后，GuidedVLA 验证了“显式引导”在具身智能中的有效性，为后续研究提供了新的思路：即在追求模型泛化能力的同时，不应忽视对关键任务因素的结构化约束和显式建模。这项工作已被 RSS 2026 接收，标志着学术界对 VLA 可解释性研究的重视，也为未来更复杂的具身智能系统奠定了坚实基础。

查看原文 →leiphone.com