技术博客arXiv cs.CL·23 小时前

企业智能体路由扩展：性能衰退、诊断与恢复

原标题：Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery

速览

随着企业智能体和工具库规模扩大，LLM路由准确率显著下降。研究将衰退分解为检索差距和混淆差距，并验证嵌入短名单方法能有效恢复F1分数。该方案在真实生产流量中证实了显著的性能提升。

AI 深度解读

企业级智能体路由扩展：退化、诊断与恢复

背景

随着大语言模型（LLM）在生产力工具中的深入应用，现代企业级 AI 助手不再仅仅依赖单一的对话能力，而是通过路由机制将用户请求分发给日益庞大的专用工具库（Tool Libraries）。这种架构使得 AI 助手能够执行从数据查询到代码生成等多样化任务。

然而，随着工具目录（Catalog）的规模扩大，路由系统的准确性面临严峻挑战。当可用工具从几十个增加到上百个时，模型能否准确识别并调用正确的工具？这种“路由准确率”是如何随着规模扩展而退化的？现有的研究往往关注模型在少量工具上的表现，缺乏对大规模、真实生产环境下路由退化机制的系统性研究。

本文基于一个已部署的企业生产力助手，对其包含 110 个智能体（Agents）和 584 个工具（Tools）的庞大目录进行了深入研究，旨在量化路由准确率随规模扩展的退化情况，分析其根本原因，并验证通过嵌入向量（Embedding）进行短名单筛选（Shortlisting）的恢复效果。

核心内容

1. 研究设置与实验环境

研究团队利用一个实际部署的企业生产力助手的数据集，该助手拥有 110 个智能体和 584 个工具。研究聚焦于**单步路由（Single-step routing）**任务，即判断用户请求应路由至哪个特定的智能体或工具。

为了评估不同模型在大规模场景下的表现，研究选取了来自 10 到 110 个智能体规模区间的三个前沿模型（Frontier Models）进行测试。这些模型代表了当前最先进的 LLM 能力，用于观察其在不同规模下的泛化与退化行为。

2. 路由准确率的显著退化

实验结果显示，随着智能体数量的增加，路由准确率出现了显著下降。特别是在处理描述不明确（Under-specified）的请求时，三个模型的 F1 分数均下降了 16 到 23 个百分点。

这一发现表明，当工具库规模扩大时，模型区分相似意图或模糊请求的能力大幅减弱。这不仅是模型能力的瓶颈，更是大规模路由架构固有的系统性难题。

3. 退化根源诊断：检索差距与混淆差距

为了深入理解准确率下降的原因，研究引入了**Oracle 分析（Oracle Analysis）**方法，将整体退化分解为两个独立的组成部分：

检索差距（Retrieval Gap）：指模型无法从庞大的工具库中“浮现”或检索出正确的工具。这是信息检索层面的失败，即模型甚至没有将正确工具纳入候选范围。
混淆差距（Confusion Gap）：指即使假设检索完美（即 Oracle 提供了正确的候选工具），模型的分类准确率依然下降。研究数据显示，在完美检索的假设下，Oracle 上限（Ceiling）依然下降了 10 个百分点。

这意味着，路由失败不仅是因为模型“找不到”工具，更因为模型在候选列表中“选错”了工具。混淆差距的存在揭示了模型在处理大规模、细粒度工具分类时的内在局限性。

4. 恢复策略：基于嵌入的短名单筛选

针对上述退化，研究提出并验证了一种基于嵌入向量（Embedding-based）的短名单筛选策略。该策略首先通过向量相似度快速缩小候选工具的范围，然后再由 LLM 进行最终决策。

实验结果表明，在全规模（110 个智能体）场景下，该策略在所有三个测试模型和两个不同提供商的模型上，均恢复了 +10 到 +11 个百分点的 F1 分数。这证明了通过预筛选机制减少模型决策空间的有效性，能够显著缓解规模扩展带来的性能退化。

5. 生产环境验证：真实流量下的表现

为了验证实验室结果在真实业务中的有效性，研究团队进行了一项生产环境标注研究。该研究涉及 1,435 条人工标注的用户语句，由三位标注员完成。

尽管绝对性能指标比实验室环境低 10 到 15 个百分点（反映了真实流量的复杂性和噪声），但基于嵌入的短名单筛选策略依然在真实流量中实现了 +10 到 +17 个百分点的性能恢复。这一结果确认了该技术在处理实际企业用户请求时的鲁棒性和实用性。

关键要点

规模效应显著：在企业级生产力助手场景中，随着智能体和工具数量的增加（从 10 到 110 个），路由 F1 分数在模糊请求下下降 16-23pp。
双重退化机制：路由失败由“检索差距”（找不到正确工具）和“混淆差距”（在候选中选错）共同导致，后者在完美检索假设下仍导致 10pp 的性能损失。
嵌入短名单有效：使用基于嵌入的短名单筛选（Embedding-based shortlisting）作为前置步骤，可在全规模下恢复 10-11pp 的 F1 分数。
生产环境验证：在 1,435 条真实用户语句的标注研究中，该策略在真实流量中实现了 10-17pp 的性能恢复，尽管绝对性能低于实验室环境。
跨模型通用性：该恢复效果在三个前沿模型和两个不同提供商的模型上均得到验证，表明该方法是通用的架构优化手段，而非特定模型的调优结果。

意义与影响

这项研究为构建大规模企业级 AI 助手提供了重要的架构指导。它揭示了单纯依赖 LLM 进行端到端路由在工具库扩展时的局限性，并指出了“检索-决策”两阶段架构的必要性。

对于产品工程师和架构师而言，核心启示在于：

不要忽视混淆差距：即使优化了检索系统，模型在最终决策阶段的混淆仍是主要瓶颈，需通过缩小候选集（如短名单筛选）来缓解。
嵌入检索是标配：在工具数量超过一定阈值（如数十个）后，基于嵌入的向量检索已成为维持路由准确率的必要组件。
真实流量评估至关重要：实验室的高分可能掩盖了真实场景中的退化，生产环境的标注研究是验证路由系统鲁棒性的金标准。

随着企业 AI 应用从“单点工具”向“智能体生态”演进，理解并解决路由扩展带来的退化问题，将是确保 AI 助手可用性和可靠性的关键所在。

查看原文 →arxiv.org