技术博客arXiv cs.AI·1 天前

解耦搜索与推理：构建厂商无关的LLM智能体接地架构

原标题：Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents

速览

研究提出解耦搜索接地（DSG）架构，将检索策略、提供商路由等控制从大模型推理边界中分离。该架构通过MCP兼容网关实现厂商无关的接地，在SimpleQA等基准测试中，以91%更低的搜索成本接近原生搜索准确率。部署于电商查询理解场景时，DSG在保持或超越原生精度的同时，将搜索成本削减超98%。

当前，生产环境中的大型语言模型（LLM）智能体（Agents）越来越依赖于实时搜索能力以获取最新信息。然而，主流的“原生搜索接地”（Native Search Grounding）方案通常将检索策略、提供商选择、证据注入、成本、延迟以及生成行为等关键要素，捆绑在一个单一的模型-提供商边界之内。

这种紧密耦合带来了显著的工程与运维痛点：

不可观测性与难调优：由于逻辑被封装在黑盒中，难以对搜索过程进行独立检查、微调或复用。
移植困难：更换底层模型或搜索提供商时，需要重构大量逻辑。
搜索诱导的冗长（Search-Induced Verbosity）：原生搜索往往会干扰模型的输出契约，导致回答变得啰嗦，破坏严格格式要求（如 JSON 或特定模板）。

为了解决这些问题，研究人员提出了一种新的架构思路：将“搜索”从“推理”中解耦出来，将其视为一个可优化的接口边界，而非模型本身的固定功能。

本文提出了 Decoupled Search Grounding (DSG)，一种厂商无关型（Vendor-Agnostic）的接地架构。该架构通过一个兼容 MCP（Model Context Protocol）的网关，将接地逻辑移出推理模型，使其成为独立的服务层。

DSG 架构暴露了以下核心控制能力，使其能够灵活管理搜索过程：

研究团队在 SimpleQA、FreshQA 和 HotpotQA 三个基准数据集上，对五种前沿模型进行了评估。结果揭示了不同场景下的最优策略：

时效性敏感场景（FreshQA）：原生搜索（Native Search）凭借其对最新数据的直接整合能力，在时效性要求高的任务中保持领先。
控制力敏感场景（SimpleQA）：当对输出格式、成本和延迟有严格要求时，DSG 展现出更强的优势：
- 准确率：DSG 的准确率为 86.1%，几乎追平原生搜索的 87.7%。
- 成本：搜索成本降低了 91%。
- 输出契约：DSG 成功保持了简洁的回答格式，避免了原生搜索常见的冗长问题。
- 性能：暖缓存命中率高达 99.4%，延迟降低 68%。

在大规模智能体工作负载中，DSG 被部署为一个共享的生产级接地层，支持模型的可互换性。

这一案例证明，将实时接地视为一个独立的、可优化的接口边界，而非模型内部特性，能够在保持甚至提升准确率的同时，大幅优化成本与性能。

解耦必要性：原生搜索将检索、提供商、成本、延迟和生成行为捆绑，导致系统难以调试、复用和移植，且易引发“搜索诱导的冗长”，破坏严格输出格式。
DSG 核心机制：通过 MCP 兼容网关实现厂商无关型接地，提供提供商路由、源感知渲染、降级策略、检索深度控制及混合缓存等第一类控制能力。
成本与性能平衡：在 SimpleQA 基准测试中，DSG 以 91% 的成本降低和 68% 的延迟降低，实现了与原生搜索近乎持平的准确率（86.1% vs 87.7%），并实现了 99.4% 的暖缓存命中率。
输出契约保护：DSG 有效解决了原生搜索导致的回答冗长问题，严格保持了简洁的输出格式。
生产级验证：在电商查询理解（QIU）的大规模生产负载中，DSG 在匹配原生搜索准确率的同时，将搜索成本削减了 98% 以上。
范式转变：实时接地不应被视为模型的固定功能，而应被当作一个可优化的接口边界来处理，以便在成本、延迟和准确率之间进行灵活权衡。

这篇论文及其提出的 DSG 架构对 LLM 智能体的工程实践具有深远影响：

从“黑盒”到“可观测”：通过将搜索逻辑从模型内部剥离，开发者获得了细粒度的控制权。这使得监控、调试和优化搜索过程变得可行，极大地提升了系统的可维护性。
降低 TCO（总拥有成本）：通过精确的缓存策略、提供商路由和检索深度控制，DSG 证明了可以在不牺牲准确率的前提下，将搜索成本降低两个数量级（98%+）。这对于大规模部署的智能体应用至关重要。
增强系统稳定性与灵活性：厂商无关的设计意味着企业不再被锁定在单一供应商身上，可以根据成本、性能或合规性要求自由切换搜索提供商。同时，配置的降级策略提高了系统在部分服务故障时的鲁棒性。
优化用户体验：通过解决“搜索诱导的冗长”问题，DSG 确保了智能体能够严格遵守预设的输出契约（如 JSON 格式、简短回答），这对于需要与下游系统或其他智能体交互的复杂工作流至关重要。

总之，DSG 代表了一种更成熟、更工程化的 LLM 智能体构建范式：不再盲目依赖模型自带的搜索能力，而是通过构建独立、可优化的接地层，实现成本、性能与质量的全面优化。