← 返回信息流
技术博客arXiv cs.CL·2 天前

SelSkill:双粒度偏好学习实现智能体技能选择性调用

原标题:Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning

速览

针对现有智能体技能选择方法忽视调用时机的问题,研究者提出SelSkill框架。该框架将技能使用建模为调用或跳过决策,结合预测不确定性优先处理关键决策点,并构建受控的调用-跳过偏好对。实验表明,该方法在ALFWorld和BFCL基准上显著提升了任务成功率和执行精度,且具备向新领域迁移的能力。

AI 深度解读

Skill or Skip? 通过双粒度偏好学习实现智能体任务中的选择性技能调用

背景

在构建复杂的智能体(Agentic)系统时,Agent Skills(智能体技能)扮演着至关重要的角色。这些技能本质上是可调用的过程化模块,旨在为智能体提供可复用的知识和执行策略,从而解决复杂任务。

然而,现有的研究和方法主要聚焦于两个方向:一是如何从众多技能中筛选出相关的技能,二是如何改进技能本身的质量。一个被广泛忽视的关键问题是:在当前决策点,是否真的应该调用某个相关技能?

这种“盲目调用”的现象可能导致严重的负面后果。即使调用的技能在语义上是相关的,如果它在当前上下文中并不适用,这种无益的调用(Unhelpful invocations)不仅会引入无关的上下文信息,还会干扰智能体原本正确的执行流程,导致任务失败或效率降低。

为了解决这一痛点,研究团队提出了 SelSkill,这是一种基于双粒度偏好学习(Dual-Granularity Preference Learning)的框架,专门用于实现智能体任务中的选择性技能调用。

核心内容

SelSkill 的核心创新在于将技能的使用重新定义为一个“调用还是跳过”(Skill-or-Skip)的二元决策问题,并通过精细化的偏好学习机制来优化这一决策过程。

1. 预测不确定性驱动的决策点优先排序

SelSkill 利用预测不确定性(Predictive Uncertainty)来识别智能体在推理过程中最不确定的时刻。这些高不确定性区域通常对应着关键的决策点。通过优先在这些点上进行干预和学习,框架能够更有效地提升智能体的决策质量,而不是均匀地处理所有步骤。

2. 构建受控的“调用-跳过”偏好对

为了训练智能体做出正确的选择,SelSkill 从共享的轨迹前缀(Shared Trajectory Prefixes)中构建受控的“调用-跳过”偏好对(Invoke-Skip Preference Pairs)。这意味着,对于同一个历史状态,系统会对比“调用技能”和“跳过技能”两种路径的结果,从而让模型学习到在特定情境下哪种选择更优。

3. 双粒度偏好学习框架

SelSkill 结合了两个层面的偏好信号,以捕捉全局轨迹质量和局部调用有效性:

  • Episode-level Outcome Preferences(回合级结果偏好):关注整个任务序列的最终结果,确保长期目标的一致性。
  • Step-level Invocation Preferences(步骤级调用偏好):关注单个步骤中技能调用的有效性,确保每一步决策的准确性。

这种双粒度设计使得模型既能看到“森林”(整体任务成功),也能看清“树木”(局部调用是否得当)。

4. 实验验证与性能提升

研究团队在多个基准测试中验证了 SelSkill 的有效性,主要使用 Qwen3-8B 作为基础模型:

  • ALFWorld 基准
    • 任务成功率(Task Success)提升了 10.9 个百分点
    • 执行精度(Execution Precision)提升了 29.1 个百分点
  • BFCL 基准
    • 任务成功率提升了 5.7 个百分点
    • 执行精度提升了 29.5 个百分点
  • 零样本迁移能力
    • Tau-benchPopQA 上的零样本(Zero-shot)结果表明,学习到的调用策略能够有效地迁移到拥有此前未见技能的新领域中。这证明了该框架不仅过拟合于特定技能集,而是学到了通用的“何时调用”的决策逻辑。

关键要点

  • 问题重构:将技能选择问题从“选哪个技能”扩展为“是否调用技能”,解决了过度调用或错误调用导致的上下文污染问题。
  • 不确定性引导:利用预测不确定性定位关键决策点,提高了学习效率,避免在确定性高的步骤上浪费计算资源。
  • 双粒度优化:同时优化回合级最终结果和步骤级调用动作,平衡了长期目标与短期执行的有效性。
  • 显著的性能增益:在 ALFWorld 和 BFCL 基准上,执行精度的提升幅度(约 29%)远超任务成功率的提升幅度,说明该框架极大地减少了无效操作,使执行过程更加精准。
  • 良好的泛化能力:在未见过的技能和领域(Tau-bench, PopQA)中表现良好,表明其学到的是一种通用的决策策略,而非针对特定技能的记忆。

意义与影响

SelSkill 的提出对智能体架构设计具有重要的理论和实践意义:

  1. 提升智能体的鲁棒性:通过引入“跳过”选项,智能体不再被迫在每一步都寻找技能匹配,从而减少了因错误匹配导致的级联错误。这对于构建稳定、可靠的复杂任务智能体至关重要。
  2. 优化上下文窗口利用率:减少无益的技能调用意味着减少无关上下文信息的注入。这有助于缓解大语言模型上下文窗口过载的问题,提高推理速度和准确性。
  3. 推动偏好对齐技术的发展:该方法展示了如何将细粒度的过程监督(Step-level)与粗粒度的结果监督(Episode-level)相结合,为强化学习人类反馈(RLHF)或其他偏好对齐技术在智能体领域的应用提供了新的思路。
  4. 通用决策策略的潜力:证明“何时不调用”与“何时调用”同样重要,且这种决策逻辑具有跨领域迁移能力,为开发通用智能体(Generalist Agents)提供了新的技术路径。

总之,SelSkill 不仅是一个性能提升工具,更是一种思维范式的转变:在智能体设计中,克制和选择性往往比单纯的增强和扩展更为关键。

查看原文 →arxiv.org