技术博客arXiv cs.AI·1 天前

技能引导的持续蒸馏提升GUI智能体成功率

原标题：Skill-Guided Continuation Distillation for GUI Agents

速览

针对GUI智能体在闭环执行中因偏离专家轨迹而缺乏有效监督的问题，研究提出技能引导的持续蒸馏（SGCD）框架。该框架通过提取包含延续计划、关键目标等维度的技能，利用成功和失败的运行轨迹生成混合监督信号，从而弥补策略诱导的离轨状态监督缺口。实验显示，SGCD使OSWorld-Verified上三个基础模型的成功率从30%多提升至50%以上，证明了其有效性和通用性。

AI 深度解读

Skill-Guided Continuation Distillation for GUI Agents 深度解读

背景

当前，提升图形用户界面（GUI）智能体（GUI Agents）性能的主流方法依赖于对专家轨迹（Expert Trajectories）的行为克隆（Behavior Cloning）。然而，这种范式存在一个根本性的缺陷：在闭环执行过程中，随着当前策略（Policy）逐渐偏离专家策略，智能体不可避免地会进入由策略本身引发的“离轨状态”（Off-trajectory States）。

所谓离轨状态，是指那些不在专家演示轨迹中的状态。由于专家轨迹中并未包含对这些未见状态的有效示范，导致智能体在面对这些状态时缺乏有效的监督信号，从而无法选择正确的动作。这种监督缺失构成了“监督差距”（Supervision Gap），严重限制了智能体在复杂、长程任务中的鲁棒性和成功率。

核心内容

为了解决上述监督差距问题，研究团队提出了 Skill-Guided Continuation Distillation (SGCD)，即“技能引导的延续蒸馏”框架。这是一种迭代的自我改进机制，旨在通过合成数据填补专家数据在离轨状态下的空白。

SGCD 的核心工作流程如下：

探索离轨状态：首先，使用不带技能引导的基础策略（Plain Policy）运行若干步骤，使其主动进入真实的离轨状态。这一步骤模拟了智能体在实际操作中可能出现的错误路径。
生成成功延续：从这些离轨状态出发，利用带有技能引导的策略（Skill-Guided Policy）继续执行任务，直至任务成功完成。这些从错误状态“挽救”并完成任务的过程被称为“成功延续”（Successful Continuations）。
混合监督信号：将生成的成功延续轨迹与原始的专家轨迹混合，形成新的训练数据集。这使得模型能够在离轨状态下获得有效的监督信号，从而学会如何从错误中恢复。

为了支撑这一过程，SGCD 从成功和失败的运行轨迹（Rollouts）中提取了四类关键技能（Skills）：

延续计划（Continuation Plans）：指导智能体如何从当前状态继续完成任务的具体步骤规划。
关键目标（Critical Targets）：任务执行过程中必须达成的关键中间状态或节点。
失败陷阱（Failure Traps）：标识出容易导致任务失败的常见错误或状态，帮助智能体规避风险。
成功标准（Success Criteria）：定义任务成功完成的明确条件。

通过在 OSWorld-Verified 基准测试上的实验，SGCD 成功将三个基础模型的成功率从 30% 左右的低区间提升至 50% 以上，证明了该方法的有效性和通用性。

关键要点

解决离轨监督缺失：SGCD 的核心创新在于解决了行为克隆中因策略偏离专家轨迹而导致的“离轨状态”缺乏监督的问题。
迭代自我改进：该方法是一个迭代框架，通过让基础策略探索错误路径，再由技能引导策略修复这些路径，实现数据的自我增强。
技能结构化提取：不仅依赖原始轨迹，还从轨迹中提取了结构化的技能要素（延续计划、关键目标、失败陷阱、成功标准），为模型提供更丰富的语义指导。
显著的性能提升：在 OSWorld-Verified 基准上，SGCD 将三个不同基础模型的成功率从 <30% 提升至 >50%，提升了约 20 个百分点。
通用性强：该方法不依赖于特定的基础模型架构，展示了在多种基座模型上的泛化能力。

意义与影响

SGCD 的提出为 GUI 智能体的训练范式提供了新的思路。传统的行为克隆高度依赖高质量、全覆盖的专家数据，而在现实世界中，获取覆盖所有可能错误路径的专家演示既昂贵又不现实。

SGCD 通过“从错误中学习”的机制，证明了利用模型自身的探索能力生成合成数据（Synthetic Data）来弥补专家数据的不足是可行的。这种方法不仅降低了对完美专家轨迹的依赖，还增强了智能体在动态、开放环境中的鲁棒性。对于致力于开发更可靠、更自主的 GUI 智能体的研究者和开发者而言，SGCD 提供了一套可复用的框架，有助于推动智能体从“实验室演示”走向“实际应用”。

查看原文 →arxiv.org