技术博客arXiv cs.CL·7 天前

VibeSearchBench：野生长程主动搜索基准测试

原标题：VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

速览

针对现有搜索基准与真实体验的差距，研究提出VibeSearch范式，并推出包含200个双语任务的VibeSearchBench基准。该基准通过渐进式披露模拟器和图匹配框架，评估模型在长程主动搜索中的意图澄清与知识构建能力。实验显示，当前前沿模型在此任务上表现不佳，亟需在长上下文推理和结构化知识构建方面取得突破。

AI 深度解读

VibeSearchBench：在真实场景中评估长程主动搜索能力

背景

尽管基于大语言模型（LLM）的智能体在现有的搜索基准测试中表现优异，但现实用户却普遍反馈搜索结果令人不满意。这种“评估-体验”之间的持久差距（evaluation-experience gap）揭示了当前评测体系与真实需求之间的脱节。

造成这一差距的核心原因在于，现有的基准测试往往依赖于过度具体的查询（over-specified queries）、单轮交互（single-turn interactions）以及固定模式的评估标准（fixed-schema evaluation）。然而，在真实的搜索行为中，用户与智能体是通过多轮对话协作，共同从模糊的意图中逐步提炼出精确需求的过程。

为了填补这一空白，研究者提出了“VibeSearch”这一新范式，并发布了 VibeSearchBench，旨在更真实地模拟和评估长程主动搜索（Long-horizon Proactive Search）能力。

核心内容

1. 什么是 VibeSearch？

VibeSearch 是一种模拟真实搜索行为的范式。在真实场景中，用户的初始意图往往是模糊的、非结构化的。用户与智能体需要通过多轮对话进行协作，智能体需要主动引导、澄清意图，并逐步构建知识结构，最终满足用户的信息需求。这与传统基准测试中“用户给出精确问题，系统直接返回答案”的模式截然不同。

2. VibeSearchBench 数据集构建

VibeSearchBench 是一个包含 200 个手动策划的双语（中文和英文）任务的基准测试集，涵盖 20 个不同的领域。数据集被划分为两个子集：

VibeSearch-Pro：专业领域任务。
VibeSearch-Daily：日常生活领域任务。

每个任务都包含以下关键要素：

用户画像（User Persona）：模拟真实用户的背景、偏好和初始模糊意图。
无模式真值知识图谱（Schema-free Ground-truth Knowledge Graph）：不预设固定的数据结构，允许知识以灵活的方式呈现，更贴近真实信息的多样性。

3. 评估框架

为了准确评估智能体在 VibeSearch 范式下的表现，研究引入了两个核心组件：

渐进式披露用户模拟器（Progressive-disclosure User Simulator）：模拟真实用户在对话中逐步透露信息的行为，而非一次性提供所有背景。
图匹配评估框架（Graph-matching Evaluation Framework）：基于知识图谱的结构相似性进行评分，而非简单的关键词匹配或文本相似度计算，从而更准确地衡量智能体对意图理解和知识构建的能力。

4. 实验结果

研究者在 ReAct 框架和 OpenClaw 智能体工具包下，对七款前沿模型进行了基准测试。结果显示：

所有模型在 VibeSearch 任务上的表现均显著不足。
最佳模型的 F1 分数仅为 30.30。

这一低分表明，当前的大语言模型在长上下文推理、主动意图 elicitation（激发/引导）以及结构化知识构建方面仍存在根本性的不足。

关键要点

评估范式转变：从“精确查询-单轮回答”转向“模糊意图-多轮协作-主动引导”的 VibeSearch 范式，更贴近真实用户行为。
数据集创新：
- 包含 200 个双语（中/英）任务，覆盖 20 个领域。
- 区分专业（Pro）与日常（Daily）场景。
- 使用无模式知识图谱作为真值标准，避免固定 schema 带来的偏差。
评估方法升级：
- 引入渐进式披露的用户模拟器，模拟真实对话中的信息逐步释放。
- 采用图匹配框架，评估智能体构建和推理知识图谱的能力。
当前模型局限：
- 七款前沿模型在 VibeSearchBench 上表现不佳，最高 F1 仅 30.30。
- 暴露出模型在长程推理、主动意图挖掘和结构化知识构建方面的短板。
未来方向：需要在大语言模型的长上下文推理能力、主动意图引导策略以及结构化知识表示方面进行根本性改进。

意义与影响

VibeSearchBench 的发布标志着搜索基准测试从“理想化场景”向“真实世界复杂性”的重要迈进。它揭示了当前 LLM 智能体在应对模糊、动态、多轮交互的真实搜索任务时的巨大能力缺口。

对于开发者而言，这一基准提供了一个更严苛、更真实的评估工具，有助于识别模型在意图理解和知识构建方面的具体弱点。对于研究者而言，它指明了未来改进的方向：即如何使智能体从“被动回答者”转变为“主动协作者”，通过多轮对话逐步澄清和深化用户需求，并构建结构化的知识体系以提供精准、个性化的搜索结果。

这一工作不仅推动了搜索评测标准的更新，也为开发更智能、更人性化的下一代搜索智能体奠定了理论基础和实践指南。

查看原文 →arxiv.org