技术博客arXiv cs.AI·6 天前

索引不可读内容：LLM原生递归构建与服务分类法的搜索

原标题：Indexing the Unreadable: LLM-Native Recursive Construction and Search of Service Taxonomies

速览

针对智能体时代服务数量激增导致的上下文窗口溢出及“中间丢失”现象，研究者提出A2X服务发现方案。该方案利用LLM原生递归构建层级分类法，在查询时逐层披露信息，确保每次调用仅处理高相关性的小规模候选集。实验表明，A2X在大幅降低提示词成本的同时，检索准确率显著优于全量上下文及现有基于嵌入的基线方法。

AI 深度解读

索引不可读之物：LLM原生递归构建与服务分类法的搜索

背景

随着“智能体互联网”（Internet of Agents, IoA）时代的逐渐成型，大语言模型（LLM）智能体正被期望通过编排日益增长的模型上下文协议（MCP）服务器、智能体对智能体（A2A）端点、可复用技能以及其他LLM可调用的服务来达成用户目标。然而，LLM在这一新范式中面临着一个结构性的错配：有效的上下文是一种稀缺资源，其容量无法随服务数量的增加而线性扩展。

当尝试将成千上万的服务描述直接拼接放入提示词（Prompt）时，往往会超出上下文窗口的限制。即便上下文窗口足够大，模型也会系统性地忽略长输入中间部分的信息，即文献中广泛记录的“中间丢失”（Lost-in-the-Middle）现象。从根本上说，这是服务发现过程中的上下文管理问题。现有的全量上下文注入方式不仅效率低下，而且检索准确性难以保证。

核心内容

为了解决上述上下文管理的根本难题，本文提出了一种LLM原生的渐进式披露方案，并给出了其具体实例化实现——A2X（Agent-to-Anything，即智能体对任意服务发现）。

A2X是一个由LLM驱动的自动化管道，其核心逻辑在于将注册的服务自动组织成层级化的分类法（Taxonomy），并在查询时逐层遍历该分类法。这种机制确保了每一次LLM调用所看到的候选服务集合都非常小，且与用户查询高度相关。通过这种方式，A2X有效地将“有效上下文的稀缺性”与“注册表的大小”解耦，在显著降低Token消耗的同时，大幅提升了检索的准确性。

具体而言，A2X的工作流程包含两个主要阶段：

递归构建：利用LLM自动分析并注册的服务，构建一个分层的分类结构。
分层搜索：在用户发起查询时，系统从分类法的顶层开始，逐层向下筛选，直到找到最匹配的具体服务。每一步只向LLM提供当前层级相关的少量候选项，从而避免了长上下文带来的注意力分散问题。

关键要点

解决上下文瓶颈：A2X通过分层遍历而非全量注入，解决了服务数量激增导致的上下文窗口溢出及“中间丢失”问题。
LLM原生设计：该方案完全依赖LLM的能力进行服务分类和路径选择，无需依赖传统的向量数据库或外部索引结构作为主要检索手段。
显著的性能提升：
- 与全量上下文注入相比，A2X在提示词Token成本仅为九分之一的情况下，命中率（Hit Rate）提升了6.2个百分点。
- 与基于嵌入（Embedding）的最先进开源基线模型相比，A2X的命中率提升了20个百分点以上。
成本与效率优化：通过仅向LLM提供高度相关的少量候选服务，大幅减少了Token消耗，同时提高了服务发现的精准度。
渐进式披露机制：引入了一种新的上下文管理范式，即根据查询相关性动态披露信息，而非静态地提供所有可用信息。

意义与影响

A2X的提出标志着智能体服务发现范式的一个重要转变。在智能体互联网日益复杂的背景下，单纯依靠扩大上下文窗口已无法解决服务发现的可扩展性问题。A2X通过引入层级化的递归搜索机制，证明了利用LLM自身的推理能力来管理上下文比传统的向量检索或全量提示更有效。

这一方法不仅降低了LLM调用的成本，还提高了服务匹配的准确性，为构建大规模、动态的服务生态系统的智能体编排提供了可行的技术路径。它表明，未来的智能体系统可能需要更多地依赖结构化的、LLM原生的上下文管理策略，而非仅仅依赖硬件层面的上下文窗口扩展。

查看原文 →arxiv.org