技术博客arXiv cs.CL·4 小时前

LoHoSearch：突破人类难度上限的长程搜索智能体基准测试

原标题：LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

速览

针对现有搜索智能体基准测试因人类出题局限而陷入难度瓶颈的问题，研究团队推出了LoHoSearch基准。该基准基于涵盖700万实体的知识图谱自动生成，包含544道经人工验证的复杂问题。测试显示，即便最强模型准确率也仅为34.74%，现有上下文管理策略提升有限。LoHoSearch为评估长程推理和上下文管理能力提供了更具挑战性的标准。

AI 深度解读

LoHoSearch：突破人类难度上限的长视界搜索智能体基准测试

背景

在过去的一年中，以 BrowseComp 为代表的搜索智能体（Search Agent）基准测试迅速饱和。随着大语言模型（LLM）能力的飞速提升，最强的模型在这些基准测试上的准确率已经超过了 90%。然而，这种高准确率背后隐藏着一个关键问题：现有的基准测试大多由人类作者编写。

人类标注者在构建测试题目时，缺乏对实体统计数据的全球视角，无法系统地最大化搜索空间的大小和问题的结构复杂性。这导致现有基准测试存在一个难以突破的“难度天花板”（Difficulty Ceiling）。当模型能够轻易解决这些题目时，研究人员便难以评估智能体在更复杂、更真实的长视界推理和上下文管理方面的真实能力。

核心内容

为了解决上述局限性，研究人员引入了 LoHoSearch（Long-Horizon Search Agents），这是一个极具挑战性的基准测试套件，旨在评估搜索智能体在超越人类难度上限场景下的表现。

1. 数据集构建与规模

LoHoSearch 包含 544 个经过人类验证的问题，涵盖 11 个不同的领域。其核心创新在于构建流程：

自动化流水线：研究团队开发了一套自动化构建管道，基于一个覆盖超过 700 万个 Wikipedia 实体的知识图谱（Knowledge Graph, KG）。
复杂关系选择：该流水线专门筛选具有巨大搜索空间的关系（relations）。
结构化组装：将这些关系组装成结构复杂的问题，并通过知识图谱验证答案的唯一性，确保测试的严谨性。

2. 评估结果

在 LoHoSearch 上的评估结果显示了当前模型能力的瓶颈：

整体准确率低迷：即使是目前最强的模型，在 LoHoSearch 上的准确率仅为 34.74%。
现有策略失效：在之前的基准测试中表现良好的上下文管理策略（Context Management Strategies），在此处仅带来了微小的提升（最佳提升幅度为 +6.8%）。这表明，面对结构更复杂、搜索空间更大的长视界任务，传统的上下文处理手段已显不足。

3. 核心目标

LoHoSearch 的设计初衷是提供一个更严格的标准，用于评估搜索智能体在以下两个关键维度的能力：

长视界推理（Long-horizon Reasoning）：即模型能否在多个步骤、长序列的搜索过程中保持逻辑连贯性。
上下文管理（Context Management）：即模型能否在海量且复杂的搜索结果中有效提取、整合并记忆关键信息。

关键要点

突破人类标注局限：现有基准测试（如 BrowseComp）因依赖人类标注而存在难度上限，LoHoSearch 通过基于大规模知识图谱的自动化生成方法，克服了人类在统计全局视角和结构复杂性设计上的不足。
数据规模与严谨性：基准包含 544 个问题，覆盖 11 个领域，所有答案均通过覆盖 700 万实体的知识图谱进行唯一性验证，确保了测试数据的真实性和逻辑闭环。
模型性能断崖式下跌：最强模型在 LoHoSearch 上的准确率仅为 34.74%，远低于此前基准测试中超过 90% 的表现，揭示了当前 SOTA 模型在长视界复杂搜索任务中的巨大差距。
传统优化策略边际效应递减：现有的上下文管理优化策略在 LoHoSearch 上仅带来约 6.8% 的提升，说明解决长视界搜索难题需要新的算法突破，而非简单的工程优化。
新的评估标准：LoHoSearch 确立了评估智能体“长视界推理”和“复杂上下文管理”能力的新标杆，推动了搜索智能体从“简单检索”向“复杂逻辑推理”的演进。

意义与影响

LoHoSearch 的发布对人工智能搜索智能体的发展具有重要的里程碑意义：

重新定义性能评估标准：它打破了此前基准测试因难度饱和而导致的“虚假繁荣”，为学术界和工业界提供了一个能够真实反映模型极限难度的测试环境。
揭示技术瓶颈：通过展示最强模型仅 34.74% 的准确率，研究明确指出当前大模型在处理长视界、高复杂度搜索任务时仍存在显著缺陷，特别是上下文窗口管理和多步推理能力亟待加强。
推动算法创新：由于传统的上下文管理策略效果有限，LoHoSearch 将激励研究人员探索新的架构设计，如更高效的记忆机制、动态搜索策略或专门针对长视界推理优化的模型结构。
促进自动化基准生成方法：基于知识图谱的自动化构建流程为未来生成高质量、高难度 AI 基准测试提供了可复用的方法论，有助于解决人工标注成本高且难以保证复杂性的问题。

总之，LoHoSearch 不仅是一个新的基准测试，更是推动搜索智能体向更高阶认知能力迈进的关键催化剂。

查看原文 →arxiv.org