← 返回信息流
AI 资讯雷峰网·2 小时前

复旦等提出GuidedVLA,以显式引导提升VLA可控可解释性

原标题:让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

速览

复旦大学等机构提出GuidedVLA,被RSS 2026接收。该工作通过Object、Skill、Depth三类显式引导,解决VLA动作生成隐式难解释问题。实验显示其在仿真和真实机器人平台均显著优于基线,且具备良好可解释性。

AI 深度解读

背景

随着具身智能(Embodied AI)从实验室走向更复杂的真实环境,机器人面临的挑战已不再仅仅是“能否完成单一动作”,而是如何在动态、非理想条件下稳定执行长程任务。视觉-语言-动作模型(VLA)作为连接视觉理解、语言指令与动作生成的核心架构,虽然在统一模型结构和吸收多模态知识方面优势明显,但在端到端训练框架下,其动作生成过程往往高度隐式。

在真实场景中,桌面杂乱、光照变化、目标物体透明或难以定位、任务步骤冗长等因素,极易导致机器人判断失误。例如,模型可能无法准确判断该看哪里、当前处于任务的哪个阶段,或空间位置是否精确。这种“黑盒”特性使得研究者和工程团队难以诊断失败原因、改进模型,也难以将系统部署到更多变化场景中。因此,提升 VLA 的可控性与可解释性,成为其走向复杂真实任务的关键瓶颈。

核心内容

针对上述挑战,复旦大学可信具身智能研究院联合上海交通大学、香港大学 OpenDriveLab 等机构提出了 GuidedVLA。该工作已被 Robotics: Science and Systems (RSS) 2026 接收,并开源了论文、代码、模型权重及数据集。GuidedVLA 的核心理念是在 VLA 的动作生成过程中引入显式引导,将任务相关因素拆解为更清晰、可检查的分工,从而让机器人的行动更有依据。

1. 三大显式引导机制

GuidedVLA 在动作解码器中指定特定的注意力头,分别关注以下三类任务关键因素:

  • Object Head(目标定位):负责锁定任务相关物体区域(如抓取物、放置点),抑制背景和干扰物的影响。这对于杂乱桌面、小目标或透明物体等场景至关重要,确保机器人“看准目标”。
  • Skill Head(阶段识别):负责识别当前任务所处的阶段(如抓取、移动、放置)。在多阶段任务中,这能防止模型提前跳步或在最后阶段失败,使动作生成对任务进度保持敏感。
  • Depth Head(空间几何):负责补充 3D 空间几何信息。通过接入冻结的深度编码器特征,让特定注意力头处理高度、距离、插入角度等精确的空间线索,解决因空间估计不准导致的操作失败。

2. 技术实现:残差适配与自动标注

  • 非破坏性改造:采用类似 ControlNet 的残差适配思路。保留原有的主注意力分支,新增 factor-specific 控制分支,并通过 zero-initialized projection 与主分支融合。这意味着新分支在训练初期不会扰动原模型已学到的能力,随着训练推进再逐步注入引导信息,无需从零重建系统。
  • 自动化标注流水线:为降低标注成本,团队设计了自动标注流程:
    • 物体掩码由 Qwen3-VL 生成 point prompts,再经 SAM2 在视频段中传播。
    • 技能标签由 Qwen3-VL 根据阶段描述生成。
    • 深度引导直接使用冻结深度编码器特征,无需人工深度标注。
    • 效率数据:92% 的 episodes 无需人工修正;标注 50 个 episodes 时,自动流水线仅需约 4 分钟,而纯人工需 43.5 分钟。

3. 实验验证

GuidedVLA 在仿真基准和真实机器人平台上均表现出显著优势:

  • 仿真基准 LIBERO-Plus:在相机视角、光照、背景纹理等 7 类扰动下,GuidedVLA 总成功率达到 75.4%,优于基线 π0 的 68.2%。单类分工在对应任务类型上表现更佳(如 Object Head 在物体任务、Skill Head 在阶段任务、Depth Head 在空间任务中优势明显)。
  • RoboTwin 2.0:在 8 个随机化、未见设置的操作任务中,平均成功率从 π0 的 77.38% 提升至 90.63%。例如,在需要精确 Z 轴控制的 Click Bell 任务中,Depth Head 将成功率从 35% 提升至 63%。
  • 真实机器人平台
    • ALOHA AgileX(家庭任务:分拣、叠碗、清洁)和 PSI-Bot RealMan(实验室任务:烧杯操作)。
    • 在三类设置下,GuidedVLA 均优于 Base Policy:
      • In-Domain average:75.8% vs 55.8%
      • Scene average:67.5% vs 44.2%(相对提升约 52.7%)
      • Lighting average:79.2% vs 57.5%

4. 可解释性验证

研究进一步验证了可解释分工与任务成功的强相关性:

  • 当 Object Head 落在目标区域内的注意力比例从 0.25 增加到 1.0,成功率从 61.3% 提升至 77.4%。
  • 当 Skill Head 技能识别准确率提高,成功率从 66.2% 提升至 77.7%。
  • 当 Depth Head 中真实深度特征比例从 0 增加到 1.0,成功率从 15.0% 大幅提升至 76.2%。

关键要点

  • 显式解耦:GuidedVLA 将 VLA 隐式的动作生成过程解耦为“目标、阶段、空间”三个显式维度,通过特定的注意力头进行专门化处理。
  • 即插即用:采用残差适配架构,在不破坏预训练 VLA 原有能力的前提下,通过新增控制分支注入引导信息,兼容性好且易于集成。
  • 低成本标注:利用 Qwen3-VLSAM2 等现有模型构建自动化标注流水线,大幅降低了训练数据的制作成本和时间。
  • 诊断价值:不仅提升了最终任务成功率,更重要的是提供了可观察的中间指标。当机器人失败时,研究者可以明确判断问题是出在目标定位、阶段理解还是空间估计,从而进行针对性优化。
  • 广泛适用性:实验覆盖从仿真环境到真实家庭及实验室场景,证明了该方法在应对光照变化、物体透明、几何约束复杂等真实挑战时的鲁棒性。

意义与影响

GuidedVLA 的提出为具身智能领域提供了一条务实且高效的技术路线。

首先,它解决了 VLA 模型在复杂真实环境中“黑盒”决策的痛点。通过引入可控可解释的机制,使得机器人不仅“能行动”,而且“行动有据”,极大地增强了系统的可信度和安全性。

其次,从工程落地角度看,这种模块化、可诊断的设计降低了系统迭代和维护的门槛。开发者无需重新训练整个大模型,即可通过调整或检查特定注意力头来优化性能,加速了具身智能从实验室走向商业化应用的进程。

最后,GuidedVLA 验证了“显式引导”在具身智能中的有效性,为后续研究提供了新的思路:即在追求模型泛化能力的同时,不应忽视对关键任务因素的结构化约束和显式建模。这项工作已被 RSS 2026 接收,标志着学术界对 VLA 可解释性研究的重视,也为未来更复杂的具身智能系统奠定了坚实基础。

查看原文 →leiphone.com