← 返回信息流
技术博客arXiv cs.AI·6 天前

索引不可读内容:LLM原生递归构建与服务分类法的搜索

原标题:Indexing the Unreadable: LLM-Native Recursive Construction and Search of Service Taxonomies

速览

针对智能体时代服务数量激增导致的上下文窗口溢出及“中间丢失”现象,研究者提出A2X服务发现方案。该方案利用LLM原生递归构建层级分类法,在查询时逐层披露信息,确保每次调用仅处理高相关性的小规模候选集。实验表明,A2X在大幅降低提示词成本的同时,检索准确率显著优于全量上下文及现有基于嵌入的基线方法。

AI 深度解读

索引不可读之物:LLM原生递归构建与服务分类法的搜索

背景

随着“智能体互联网”(Internet of Agents, IoA)时代的逐渐成型,大语言模型(LLM)智能体正被期望通过编排日益增长的模型上下文协议(MCP)服务器、智能体对智能体(A2A)端点、可复用技能以及其他LLM可调用的服务来达成用户目标。然而,LLM在这一新范式中面临着一个结构性的错配:有效的上下文是一种稀缺资源,其容量无法随服务数量的增加而线性扩展。

当尝试将成千上万的服务描述直接拼接放入提示词(Prompt)时,往往会超出上下文窗口的限制。即便上下文窗口足够大,模型也会系统性地忽略长输入中间部分的信息,即文献中广泛记录的“中间丢失”(Lost-in-the-Middle)现象。从根本上说,这是服务发现过程中的上下文管理问题。现有的全量上下文注入方式不仅效率低下,而且检索准确性难以保证。

核心内容

为了解决上述上下文管理的根本难题,本文提出了一种LLM原生的渐进式披露方案,并给出了其具体实例化实现——A2X(Agent-to-Anything,即智能体对任意服务发现)

A2X是一个由LLM驱动的自动化管道,其核心逻辑在于将注册的服务自动组织成层级化的分类法(Taxonomy),并在查询时逐层遍历该分类法。这种机制确保了每一次LLM调用所看到的候选服务集合都非常小,且与用户查询高度相关。通过这种方式,A2X有效地将“有效上下文的稀缺性”与“注册表的大小”解耦,在显著降低Token消耗的同时,大幅提升了检索的准确性。

具体而言,A2X的工作流程包含两个主要阶段:

  1. 递归构建:利用LLM自动分析并注册的服务,构建一个分层的分类结构。
  2. 分层搜索:在用户发起查询时,系统从分类法的顶层开始,逐层向下筛选,直到找到最匹配的具体服务。每一步只向LLM提供当前层级相关的少量候选项,从而避免了长上下文带来的注意力分散问题。

关键要点

  • 解决上下文瓶颈:A2X通过分层遍历而非全量注入,解决了服务数量激增导致的上下文窗口溢出及“中间丢失”问题。
  • LLM原生设计:该方案完全依赖LLM的能力进行服务分类和路径选择,无需依赖传统的向量数据库或外部索引结构作为主要检索手段。
  • 显著的性能提升
    • 与全量上下文注入相比,A2X在提示词Token成本仅为九分之一的情况下,命中率(Hit Rate)提升了6.2个百分点。
    • 与基于嵌入(Embedding)的最先进开源基线模型相比,A2X的命中率提升了20个百分点以上。
  • 成本与效率优化:通过仅向LLM提供高度相关的少量候选服务,大幅减少了Token消耗,同时提高了服务发现的精准度。
  • 渐进式披露机制:引入了一种新的上下文管理范式,即根据查询相关性动态披露信息,而非静态地提供所有可用信息。

意义与影响

A2X的提出标志着智能体服务发现范式的一个重要转变。在智能体互联网日益复杂的背景下,单纯依靠扩大上下文窗口已无法解决服务发现的可扩展性问题。A2X通过引入层级化的递归搜索机制,证明了利用LLM自身的推理能力来管理上下文比传统的向量检索或全量提示更有效。

这一方法不仅降低了LLM调用的成本,还提高了服务匹配的准确性,为构建大规模、动态的服务生态系统的智能体编排提供了可行的技术路径。它表明,未来的智能体系统可能需要更多地依赖结构化的、LLM原生的上下文管理策略,而非仅仅依赖硬件层面的上下文窗口扩展。

查看原文 →arxiv.org