技术博客arXiv cs.CL·3 小时前

A Single Rewrite Suffices: Empirical Lessons from Production Skill Description Optimization

AI 深度解读

背景

在企业级 AI 智能体（Agent）的架构中，路由（Routing）是核心环节之一。当用户发起查询时，系统需要将请求精准地导向最合适的专门技能（Skill）。目前主流的做法是让路由 LLM 将用户查询与各个技能的自然语言描述进行匹配，从而做出调度决策。

然而，随着智能体承载的技能数量从几个扩展到几十个，一个严重的工程瓶颈浮出水面：技能描述之间不可避免地出现语义重叠。当两个技能的描述过于相似时，路由 LLM 极易产生误判，将查询发送给错误的技能，论文将这种故障模式称为“技能碰撞”。在庞大的技能矩阵中，依靠人工逐一调整、打磨这些自然语言描述，不仅耗时耗力，而且难以穷举所有边界情况。

核心内容

针对上述痛点，本文作者在一个生产环境的企业群聊智能体（包含 9 个技能、372 个回归测试用例）上，部署了一套自动化的描述优化流水线，并得出了极具工程指导意义的经验性结论。

1. 自动化 vs. 人工调优的性能与效率对比 实验结果显示，自动化流水线生成的描述在路由准确率（F1）上平均达到了 79.2%，与资深工程师手动调优的 79.4% 几乎持平。两者之间仅 -0.20% 的差异，完全处于 0.78% 的多种子噪声波动范围内。然而，在工程效率上，自动化流水线将每个技能的调优时间从人工的 120 分钟锐减至 3.8 分钟，实现了 32 倍的提速。这证明了自动化方案可以在不牺牲质量的前提下，彻底打通规模化扩展的瓶颈。

2. 消融实验：哪些组件真正起效？ 为了探究优化流水线中哪些设计是不可或缺的，作者在生产系统和 ToolBench（包含

查看原文 →arxiv.org

A Single Rewrite Suffices: Empirical Lessons from Production Skill Description Optimization

AI 深度解读

背景

核心内容

相关推荐