← 返回信息流
技术博客arXiv cs.AI·1 天前

技能引导的持续蒸馏提升GUI智能体成功率

原标题:Skill-Guided Continuation Distillation for GUI Agents

速览

针对GUI智能体在闭环执行中因偏离专家轨迹而缺乏有效监督的问题,研究提出技能引导的持续蒸馏(SGCD)框架。该框架通过提取包含延续计划、关键目标等维度的技能,利用成功和失败的运行轨迹生成混合监督信号,从而弥补策略诱导的离轨状态监督缺口。实验显示,SGCD使OSWorld-Verified上三个基础模型的成功率从30%多提升至50%以上,证明了其有效性和通用性。

AI 深度解读

Skill-Guided Continuation Distillation for GUI Agents 深度解读

背景

当前,提升图形用户界面(GUI)智能体(GUI Agents)性能的主流方法依赖于对专家轨迹(Expert Trajectories)的行为克隆(Behavior Cloning)。然而,这种范式存在一个根本性的缺陷:在闭环执行过程中,随着当前策略(Policy)逐渐偏离专家策略,智能体不可避免地会进入由策略本身引发的“离轨状态”(Off-trajectory States)。

所谓离轨状态,是指那些不在专家演示轨迹中的状态。由于专家轨迹中并未包含对这些未见状态的有效示范,导致智能体在面对这些状态时缺乏有效的监督信号,从而无法选择正确的动作。这种监督缺失构成了“监督差距”(Supervision Gap),严重限制了智能体在复杂、长程任务中的鲁棒性和成功率。

核心内容

为了解决上述监督差距问题,研究团队提出了 Skill-Guided Continuation Distillation (SGCD),即“技能引导的延续蒸馏”框架。这是一种迭代的自我改进机制,旨在通过合成数据填补专家数据在离轨状态下的空白。

SGCD 的核心工作流程如下:

  1. 探索离轨状态:首先,使用不带技能引导的基础策略(Plain Policy)运行若干步骤,使其主动进入真实的离轨状态。这一步骤模拟了智能体在实际操作中可能出现的错误路径。
  2. 生成成功延续:从这些离轨状态出发,利用带有技能引导的策略(Skill-Guided Policy)继续执行任务,直至任务成功完成。这些从错误状态“挽救”并完成任务的过程被称为“成功延续”(Successful Continuations)。
  3. 混合监督信号:将生成的成功延续轨迹与原始的专家轨迹混合,形成新的训练数据集。这使得模型能够在离轨状态下获得有效的监督信号,从而学会如何从错误中恢复。

为了支撑这一过程,SGCD 从成功和失败的运行轨迹(Rollouts)中提取了四类关键技能(Skills):

  • 延续计划(Continuation Plans):指导智能体如何从当前状态继续完成任务的具体步骤规划。
  • 关键目标(Critical Targets):任务执行过程中必须达成的关键中间状态或节点。
  • 失败陷阱(Failure Traps):标识出容易导致任务失败的常见错误或状态,帮助智能体规避风险。
  • 成功标准(Success Criteria):定义任务成功完成的明确条件。

通过在 OSWorld-Verified 基准测试上的实验,SGCD 成功将三个基础模型的成功率从 30% 左右的低区间提升至 50% 以上,证明了该方法的有效性和通用性。

关键要点

  • 解决离轨监督缺失:SGCD 的核心创新在于解决了行为克隆中因策略偏离专家轨迹而导致的“离轨状态”缺乏监督的问题。
  • 迭代自我改进:该方法是一个迭代框架,通过让基础策略探索错误路径,再由技能引导策略修复这些路径,实现数据的自我增强。
  • 技能结构化提取:不仅依赖原始轨迹,还从轨迹中提取了结构化的技能要素(延续计划、关键目标、失败陷阱、成功标准),为模型提供更丰富的语义指导。
  • 显著的性能提升:在 OSWorld-Verified 基准上,SGCD 将三个不同基础模型的成功率从 <30% 提升至 >50%,提升了约 20 个百分点。
  • 通用性强:该方法不依赖于特定的基础模型架构,展示了在多种基座模型上的泛化能力。

意义与影响

SGCD 的提出为 GUI 智能体的训练范式提供了新的思路。传统的行为克隆高度依赖高质量、全覆盖的专家数据,而在现实世界中,获取覆盖所有可能错误路径的专家演示既昂贵又不现实。

SGCD 通过“从错误中学习”的机制,证明了利用模型自身的探索能力生成合成数据(Synthetic Data)来弥补专家数据的不足是可行的。这种方法不仅降低了对完美专家轨迹的依赖,还增强了智能体在动态、开放环境中的鲁棒性。对于致力于开发更可靠、更自主的 GUI 智能体的研究者和开发者而言,SGCD 提供了一套可复用的框架,有助于推动智能体从“实验室演示”走向“实际应用”。

查看原文 →arxiv.org