技术博客arXiv cs.CL·2 小时前

并非所有技能都有用：测量与修复智能体知识

原标题：Not All Skills Help: Measuring and Repairing Agent Knowledge

速览

研究指出LLM智能体仅靠判断积累技能存在缺陷，不同技能在不同任务中效果差异巨大。为此提出ASSAY框架，分离技能生成与筛选，通过因果归因抑制负面技能。实验显示该方法在多个基准测试中刷新SOTA，无需权重更新即可大幅提升性能。

AI 深度解读

Not All Skills Help: Measuring and Repairing Agent Knowledge 深度解读

背景

大型语言模型（LLM）智能体（Agents）在无需进行权重更新（weight updates）的情况下，能够通过从经验中积累自然语言技能来提升性能。然而，当前的系统通常将“保留哪些技能”以及“如何应用这些技能”的所有决策权完全交给 LLM 自身的判断力。

这种架构存在一个根本性的逻辑混淆：它未能区分两个截然不同的角色。一方面，从经验中生成新技能是一种创造性活动，LLM 擅长此类任务；另一方面，判断某项技能是否真正有效，则需要基于大量任务表现的实证证据，这属于评估与策展（curation）的范畴。现有的全局策展方法往往忽略了技能在不同任务类型中可能产生的因果异质性，导致一些看似有用的技能实际上可能在特定场景下产生负面影响，而这些负面影响在 aggregate（聚合统计）中被相互抵消，从而使得问题难以被察觉。

核心内容

本文提出了一种名为 ASSAY 的新框架，旨在解决上述问题。ASSAY 的核心思想是将“技能生成”与“技能策展”分离开来，通过实证测量来优化智能体的知识库。

1. 技能贡献的因果异质性发现

研究人员通过随机掩码（randomized masking）技术测量每项技能的因果贡献，发现技能库中存在普遍的因果异质性（causal heterogeneity）：

单个技能在某些任务类型上通常有帮助，但在其他任务类型上却可能产生负面影响（hurt）。
由于这些相反的效果在整体统计中相互抵消，导致这些技能在全局策展方法中“隐形”，即全局指标无法反映其真实的双面性。

2. ASSAY 框架机制

ASSAY 框架通过以下步骤重构技能管理流程：

因果归因计算：在一个小型的开发集（development set）上，计算每项技能的因果归因值。
离线重构：基于计算结果离线重构技能库。
任务级抑制：针对每个测试任务，抑制那些预测效果为负的技能。

3. 实验结果与性能提升

在涵盖四个提供商的七个基础模型以及两个基准测试（AppWorld 和 tau-bench）上，ASSAY 一致优于先前的技能策展方法。具体亮点包括：

AppWorld 最难分割集：DeepSeek-V3 模型的任务目标完成率达到了 69.3%，实现了 47.4% 的相对提升。这是包括权重调整（weight-tuned）方法在内的所有已发布方法中的新最先进水平（SOTA）。
tau-bench 零售领域：GPT-4.1 的相对性能提升了 8.7%，在公共排行榜上超越了 o4-mini、o1 和 GPT-4.5，且整个过程未进行任何权重修改。

4. 消融实验结论

消融实验追踪了主要增益来源，确认瓶颈在于推理时（inference time）将技能与任务进行匹配，而非简单地全局移除“坏”技能。通过任务级的掩码匹配，智能体能够更精准地调用有益技能并避免有害技能。

关键要点

角色分离：LLM 擅长创造性地生成技能，但不擅长基于实证数据评估技能的因果贡献。将生成与策展分离是提升性能的关键。
因果异质性：技能并非绝对有益或有害。一项技能可能在某些任务中提升性能，而在其他任务中降低性能。全局平均指标会掩盖这种局部效应。
ASSAY 方法：通过在小规模开发集上进行随机掩码实验，量化每项技能的因果影响，并在推理阶段根据具体任务动态抑制负面影响的技能。
无需微调：该方法完全基于推理时的策略调整，无需对模型权重进行任何更新或微调，即可显著提升性能。
SOTA 表现：在 DeepSeek-V3 和 GPT-4.1 等主流模型上，ASSAY 刷新了 AppWorld 和 tau-bench 的公开记录，证明了基于因果测量的技能策展的有效性。
瓶颈定位：性能提升的主要来源是推理时更精准的“技能-任务”匹配，而非简单地删除低质量技能。

意义与影响

这项研究对 LLM 智能体的工程实践具有重要的指导意义：

从“黑盒策展”到“实证策展”：传统的技能库管理往往依赖 LLM 的自我反思或简单的成功率统计，容易受到噪声和偏差的影响。ASSAY 引入了因果推断的方法，使得技能管理更加科学和可解释。
降低部署成本：由于不需要进行权重更新（Fine-tuning），企业可以在不增加训练成本的前提下，通过优化推理策略显著提升现有模型的能力。这对于资源受限的场景尤为关键。
揭示“平均数陷阱”：研究揭示了全局性能指标可能掩盖局部性能下降的问题。这提醒开发者，在评估智能体技能库时，不能仅看整体准确率，而应深入分析技能在不同任务分布下的具体表现。
推动 Agent 架构演进：随着智能体在复杂现实任务（如 AppWorld 中的应用程序交互）中的应用日益广泛，如何高效管理长期记忆和技能库成为核心挑战。ASSAY 提供了一套可复用的框架，为后续研究奠定了方法论基础。

代码已在 arXiv 页面公开，便于社区复现和进一步研究。

查看原文 →arxiv.org