技术博客arXiv cs.AI·2 小时前

超越并行采样：多样化查询初始化提升智能体搜索效率

原标题：Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search

速览

针对智能体搜索中并行采样收益递减的问题，研究发现根源在于首轮查询的冗余导致证据重叠。为此提出DivInit方法，在首轮从单次调用中选取多样化种子作为并行轨迹起点。实验显示，该方法在五个开源模型和八个基准测试中均优于标准并行采样，多跳问答准确率提升5-7分。

AI 深度解读

Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search

背景

在基于大语言模型（LLM）的智能体搜索（Agentic Search）领域，测试时扩展（Test-time Scaling）已成为提升模型性能的关键策略。目前的扩展方法主要沿两个维度展开：一是深度扩展，即增加每个轨迹（trajectory）中的交互轮次和令牌数量；二是广度扩展，即通过并行执行多个独立的 rollout（采样轨迹）来增加搜索空间。

尽管广度扩展在理论上能够通过增加样本多样性来提高找到正确答案的概率，但实际应用中往往面临边际效应递减的问题。本文指出，这种效率低下的根源在于“查询冗余”——当多个并行智能体在首轮生成高度相似的查询时，它们检索到的证据高度重叠，导致后续轮次的推理建立在相同的信息基础之上，从而浪费了计算资源。

核心内容

本文提出了一种名为 DivInit 的训练无关干预方法，旨在解决并行采样中的查询冗余问题，从而优化智能体搜索的广度扩展效率。

1. 问题诊断：并行采样的瓶颈

标准的并行采样方法通常直接采样 $k$ 个独立的初始查询。然而，研究发现，当模型在首轮生成查询时，由于提示词（prompt）和模型权重的同质性，生成的 $k$ 个查询往往具有极高的语义相似性。

证据重叠：相似的查询导致检索系统返回几乎相同的文档片段。
条件依赖：后续轮次的推理完全依赖于这些共享的检索结果，使得并行轨迹在早期就“收敛”到相同的搜索路径，失去了并行探索不同证据链的意义。

2. 解决方案：DivInit 方法

DivInit 是一种无需额外训练（training-free）的干预机制，专门作用于搜索过程的第一轮。其核心逻辑是从“独立采样”转变为“多样化种子选择”。具体步骤如下：

候选生成：通过单次调用（single call），让模型生成 $n$ 个候选查询（$n > k$）。
多样性筛选：从这 $n$ 个候选中，挑选出 $k$ 个（$k < n$）在语义上尽可能多样化的查询作为种子（seeds）。
并行执行：将这 $k$ 个多样化的查询作为起始点，分别运行独立的并行轨迹。

这种方法确保了初始搜索路径的分散性，从而在后续轮次中能够检索到更多样化的证据，提升多跳问答（Multi-hop QA）等复杂任务的表现。

3. 实验验证

作者在五个开源权重模型（open-weight models）和八个基准测试数据集上对 DivInit 进行了评估。

性能提升：在计算资源（compute）匹配的情况下，DivInit 始终优于标准的并行采样方法。
量化增益：在多跳问答任务上，平均性能提升了 5 到 7 个百分点。
通用性：该方法不依赖特定模型的微调，适用于多种开源模型。

代码已开源，供社区复现和进一步研究。

关键要点

痛点明确：智能体搜索中的广度扩展（并行采样）存在边际效应递减，主要原因是首轮查询的冗余导致证据检索重叠。
方法创新：提出 DivInit，一种无需训练的干预策略。通过“单次生成多候选 + 多样性筛选”的方式，替代传统的“多次独立采样”。
核心机制：从 $n$ 个候选中选取 $k$ 个最多样化的查询作为并行轨迹的种子，确保初始搜索路径的分散性。
显著收益：在匹配计算量的前提下，多跳问答任务平均提升 5-7 分，证明了多样性初始化对提升搜索效率的关键作用。
实施简便：该方法无需重新训练模型，可直接作为后处理或推理时的干预手段集成到现有系统中。

意义与影响

这项研究对智能体搜索系统的优化具有重要的理论和实践意义：

重新定义扩展策略：它挑战了“更多并行样本等于更好性能”的简单假设，指出查询的多样性比样本的数量在广度扩展中更为关键。这为后续研究如何高效利用计算资源提供了新的视角。
降低推理成本：通过减少冗余检索和无效推理，DivInit 能够在相同的计算预算下获得更高的准确率。这对于部署大规模智能体应用、降低 API 调用成本或减少本地推理延迟具有直接的经济价值。
通用性强：作为一种训练无关（training-free）的方法，DivInit 可以无缝集成到任何基于检索增强生成（RAG）或智能体搜索的框架中，无需针对特定模型进行微调，极大地降低了落地门槛。
推动多跳推理能力：多跳问答是衡量智能体复杂推理能力的重要指标。DivInit 在此类任务上的显著表现，表明通过优化初始搜索策略，可以有效提升模型处理需要综合多源证据的复杂问题的能力。

总之，DivInit 提供了一种简单而高效的优化路径，证明了在智能体搜索中，“如何开始”（初始化策略）与**“走多远”**（深度扩展）同样重要。

查看原文 →arxiv.org