技术博客arXiv cs.CL·4 小时前

EvoBrowseComp：基于动态知识搜索智能体基准测试

原标题：EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

速览

针对现有搜索智能体基准测试依赖静态知识、易受数据污染和参数记忆影响的问题，研究团队提出了EvoBrowseComp动态基准。该基准包含400道英文和400道中文复杂问题，通过三智能体协作框架从实时网络自动合成，确保内容的新鲜度和抗污染能力。实验表明，该基准难度较高，要求模型具备广泛的横向搜索能力，为评估随世界知识演进而提升的智能体能力提供了可扩展的范式。

AI 深度解读

EvoBrowseComp：在动态知识中测试搜索智能体的真实能力

背景

随着大语言模型（LLM）与搜索工具的结合，Search Agents（搜索智能体）已成为人工智能领域的重要研究方向。这类智能体通过调用外部搜索工具来获取实时信息，旨在弥补传统模型仅依赖训练数据中静态知识的局限性。然而，现有的评估基准（Benchmarks）在衡量这些智能体的真实能力时，正面临严峻挑战。

以 BrowseComp 为代表的现有基准测试主要依赖于静态知识。这种静态特性带来了两个核心问题：

测试集污染（Test-set Contamination）：由于互联网上的信息是公开的，测试题目可能早已出现在模型的训练数据中。
参数化记忆（Parametric Memorization）：模型可能并非通过“实时检索和推理”来回答问题，而是通过“回忆”训练过程中记住的事实来得分。

这种现象导致模型能够利用“推理捷径”（reasoning shortcuts）获得高分，从而掩盖了其在真实浏览、检索和复杂推理方面的真实水平。为了构建一个面向未来、能够抵御数据污染并反映模型真实检索能力的评估体系，研究界亟需一种动态更新的基准测试方法。

核心内容

本文提出了 EvoBrowseComp，这是一个旨在评估搜索智能体在动态演变知识（Evolving Knowledge）上表现的新型基准测试。该基准测试包含 400 道英文和 400 道中文的复杂问题，所有问题均通过实时网络遍历（live-web traversal）合成，且确保无数据污染。

1. 三智能体协作合成框架

为了收集这些高质量、无污染的复杂问题，研究团队设计了一个包含三个智能体的协作框架：

QA 合成智能体（QA Synthesis Agent）：该智能体负责从实时网络中检索最新鲜的知识，并据此合成问答对（QA pairs）。其核心目标是确保问题所依赖的事实是最新的，从而避免模型依靠旧有的参数记忆作答。
信息过滤智能体（Information Filtering Agent）：该智能体对检索到的知识进行筛选，主要依据两个维度：可信度（credibility）和流行度（popularity）。通过过滤掉低可信度或过于冷门的信息，该智能体旨在阻断模型通过简单参数化捷径获取答案的可能性，迫使模型进行更深入的检索。
高层引导智能体（High-level Guidance Agent）：该智能体负责将初步合成的问题形式化为推理图（reasoning graphs）。这一过程旨在减少合成问答对中的逻辑冗余和潜在的推理捷径，确保问题具有足够的复杂性和逻辑深度，要求智能体进行多步推理而非单点事实检索。

2. 自动化更新与防污染机制

得益于上述框架的完全自动化合成能力，EvoBrowseComp 支持定期更新。这种动态更新机制能够有效防止数据污染，并维持测试内容的时效性（temporal freshness）。这意味着基准测试可以随着世界知识的演变和智能体能力的提升而同步迭代，确保持续有效的评估。

3. 实验验证

广泛的实验结果表明，EvoBrowseComp 具有极高的难度。测试结果显示，模型需要在广泛的水平搜索（broad horizontal search）基础上进行推理才能取得好成绩。这证明了该基准测试能够有效区分模型的“记忆能力”与“真实检索推理能力”。

关键要点

解决静态基准的缺陷：现有基准（如 BrowseComp）因依赖静态知识而容易受到测试集污染和参数化记忆的影响，导致评估结果失真。
动态合成机制：EvoBrowseComp 通过实时网络遍历合成 400 道英文和 400 道中文复杂问题，确保知识的时效性和无污染性。
三智能体协作架构：
- QA 合成智能体：从实时网络获取新知识并生成 QA 对。
- 信息过滤智能体：基于可信度和流行度过滤信息，防止模型走捷径。
- 高层引导智能体：构建推理图，减少逻辑冗余，提升问题复杂度。
可扩展的评估范式：该框架支持完全自动化的定期更新，建立了一种可扩展的、高难度的基准测试范式，能够同步跟踪世界知识的演变和智能体能力的进步。
高难度与真实性：实验证实该基准测试难度极大，要求模型具备广泛的水平搜索能力，而非简单的知识回忆。

意义与影响

EvoBrowseComp 的提出标志着智能体评估从“静态知识记忆”向“动态知识检索与推理”的重要转变。

提升评估的真实性：通过消除数据污染和参数化记忆的影响，EvoBrowseComp 能够更准确地反映搜索智能体在真实世界场景中的表现。它迫使模型进行真正的“浏览”和“推理”，而非“背诵”。
推动自动化基准建设：该研究展示了一种完全自动化的基准测试合成方法，为未来构建可持续更新、自我演进的评估体系提供了可复制的范式。
引导模型能力发展：高难度的动态基准测试将引导研究人员和开发者关注提升模型的实时信息获取、多步推理和逻辑整合能力，而非仅仅优化训练数据的覆盖范围。
应对知识快速迭代：在信息爆炸的时代，知识更新速度极快。EvoBrowseComp 的定期更新机制确保了评估标准始终与最新的世界知识保持同步，为衡量 AI 系统适应动态环境的能力提供了关键工具。

总之，EvoBrowseComp 不仅是一个新的测试集，更是一种面向未来的评估哲学：评估智能体不应基于它们“知道什么”，而应基于它们“如何发现和理解新信息”。

查看原文 →arxiv.org