技术博客arXiv cs.CL·2 天前

SelSkill：双粒度偏好学习实现智能体技能选择性调用

原标题：Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning

速览

针对现有智能体技能选择方法忽视调用时机的问题，研究者提出SelSkill框架。该框架将技能使用建模为调用或跳过决策，结合预测不确定性优先处理关键决策点，并构建受控的调用-跳过偏好对。实验表明，该方法在ALFWorld和BFCL基准上显著提升了任务成功率和执行精度，且具备向新领域迁移的能力。

AI 深度解读

Skill or Skip? 通过双粒度偏好学习实现智能体任务中的选择性技能调用

背景

在构建复杂的智能体（Agentic）系统时，Agent Skills（智能体技能）扮演着至关重要的角色。这些技能本质上是可调用的过程化模块，旨在为智能体提供可复用的知识和执行策略，从而解决复杂任务。

然而，现有的研究和方法主要聚焦于两个方向：一是如何从众多技能中筛选出相关的技能，二是如何改进技能本身的质量。一个被广泛忽视的关键问题是：在当前决策点，是否真的应该调用某个相关技能？

这种“盲目调用”的现象可能导致严重的负面后果。即使调用的技能在语义上是相关的，如果它在当前上下文中并不适用，这种无益的调用（Unhelpful invocations）不仅会引入无关的上下文信息，还会干扰智能体原本正确的执行流程，导致任务失败或效率降低。

为了解决这一痛点，研究团队提出了 SelSkill，这是一种基于双粒度偏好学习（Dual-Granularity Preference Learning）的框架，专门用于实现智能体任务中的选择性技能调用。

核心内容

SelSkill 的核心创新在于将技能的使用重新定义为一个“调用还是跳过”（Skill-or-Skip）的二元决策问题，并通过精细化的偏好学习机制来优化这一决策过程。

1. 预测不确定性驱动的决策点优先排序

SelSkill 利用预测不确定性（Predictive Uncertainty）来识别智能体在推理过程中最不确定的时刻。这些高不确定性区域通常对应着关键的决策点。通过优先在这些点上进行干预和学习，框架能够更有效地提升智能体的决策质量，而不是均匀地处理所有步骤。

2. 构建受控的“调用-跳过”偏好对

为了训练智能体做出正确的选择，SelSkill 从共享的轨迹前缀（Shared Trajectory Prefixes）中构建受控的“调用-跳过”偏好对（Invoke-Skip Preference Pairs）。这意味着，对于同一个历史状态，系统会对比“调用技能”和“跳过技能”两种路径的结果，从而让模型学习到在特定情境下哪种选择更优。

3. 双粒度偏好学习框架

SelSkill 结合了两个层面的偏好信号，以捕捉全局轨迹质量和局部调用有效性：

Episode-level Outcome Preferences（回合级结果偏好）：关注整个任务序列的最终结果，确保长期目标的一致性。
Step-level Invocation Preferences（步骤级调用偏好）：关注单个步骤中技能调用的有效性，确保每一步决策的准确性。

这种双粒度设计使得模型既能看到“森林”（整体任务成功），也能看清“树木”（局部调用是否得当）。

4. 实验验证与性能提升

研究团队在多个基准测试中验证了 SelSkill 的有效性，主要使用 Qwen3-8B 作为基础模型：

ALFWorld 基准：
- 任务成功率（Task Success）提升了 10.9 个百分点。
- 执行精度（Execution Precision）提升了 29.1 个百分点。
BFCL 基准：
- 任务成功率提升了 5.7 个百分点。
- 执行精度提升了 29.5 个百分点。
零样本迁移能力：
- 在 Tau-bench 和 PopQA 上的零样本（Zero-shot）结果表明，学习到的调用策略能够有效地迁移到拥有此前未见技能的新领域中。这证明了该框架不仅过拟合于特定技能集，而是学到了通用的“何时调用”的决策逻辑。

关键要点

问题重构：将技能选择问题从“选哪个技能”扩展为“是否调用技能”，解决了过度调用或错误调用导致的上下文污染问题。
不确定性引导：利用预测不确定性定位关键决策点，提高了学习效率，避免在确定性高的步骤上浪费计算资源。
双粒度优化：同时优化回合级最终结果和步骤级调用动作，平衡了长期目标与短期执行的有效性。
显著的性能增益：在 ALFWorld 和 BFCL 基准上，执行精度的提升幅度（约 29%）远超任务成功率的提升幅度，说明该框架极大地减少了无效操作，使执行过程更加精准。
良好的泛化能力：在未见过的技能和领域（Tau-bench, PopQA）中表现良好，表明其学到的是一种通用的决策策略，而非针对特定技能的记忆。

意义与影响

SelSkill 的提出对智能体架构设计具有重要的理论和实践意义：

提升智能体的鲁棒性：通过引入“跳过”选项，智能体不再被迫在每一步都寻找技能匹配，从而减少了因错误匹配导致的级联错误。这对于构建稳定、可靠的复杂任务智能体至关重要。
优化上下文窗口利用率：减少无益的技能调用意味着减少无关上下文信息的注入。这有助于缓解大语言模型上下文窗口过载的问题，提高推理速度和准确性。
推动偏好对齐技术的发展：该方法展示了如何将细粒度的过程监督（Step-level）与粗粒度的结果监督（Episode-level）相结合，为强化学习人类反馈（RLHF）或其他偏好对齐技术在智能体领域的应用提供了新的思路。
通用决策策略的潜力：证明“何时不调用”与“何时调用”同样重要，且这种决策逻辑具有跨领域迁移能力，为开发通用智能体（Generalist Agents）提供了新的技术路径。

总之，SelSkill 不仅是一个性能提升工具，更是一种思维范式的转变：在智能体设计中，克制和选择性往往比单纯的增强和扩展更为关键。

查看原文 →arxiv.org