← 返回信息流
技术博客arXiv cs.CL·4 小时前

DiscoBench:评估搜索智能体澄清意识与深度搜索能力

原标题:When Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search

速览

针对大语言模型驱动搜索智能体在复杂任务中常因用户查询模糊而推理错误的问题,研究团队提出DiscoBench基准。该基准包含211个样本和463个模糊实例,涵盖11个真实领域,旨在评估智能体识别歧义、提出有效澄清问题及通过交互恢复正确推理路径的能力。实验表明,当前模型在主动澄清方面存在显著短板,重复搜索往往不如直接猜测有效。

AI 深度解读

当搜索智能体该提问时:DiscoBench 与澄清感知的深度搜索

背景

随着大型语言模型(LLMs)的快速发展,基于 LLM 的搜索智能体(Search Agents)正被广泛应用于解决复杂的寻址信息任务。这类智能体通常需要通过多步检索和推理来达成用户的目标。然而,现有的评估基准(Benchmarks)大多建立在一个理想化的假设之上:即用户的查询(Query)是完整且明确的。

在现实世界中,这一假设往往不成立。用户的搜索请求经常是模糊的、信息不足的,甚至包含事实性错误。在“深度搜索”(Deep Search)场景下,这种歧义性如果未被及时识别,会在多步推理链条中不断传播和放大,导致智能体偏离正确的搜索轨迹,最终给出错误或无关的结果。

为了解决这一关键缺口,研究人员引入了 DiscoBench,这是一个专为“澄清感知深度搜索”设计的基准测试,旨在评估搜索智能体能否主动识别歧义、提出有效的澄清问题,并通过与用户的交互来恢复正确的推理路径。

核心内容

1. DiscoBench 数据集构建

DiscoBench 是一个专注于评估智能体在模糊查询下交互能力的基准测试。其核心特征包括:

  • 数据规模与结构:包含 211 个样本,涵盖 463 个歧义实例。
  • 领域覆盖:数据来自 11 个真实世界领域,确保测试场景的多样性。
  • 歧义类型:覆盖了四种主要的歧义类型(具体类型虽未在摘要中逐一列举,但涵盖了从意图不明到事实冲突等多种情况)。

2. 用户模拟器与评估维度

为了模拟真实的人机交互环境,研究团队设计了一个用户模拟器(User Simulator),用于进行多轮对话交互。基于此,评估模型性能主要从以下四个维度展开:

  1. 任务效用(Task Utility):智能体最终是否解决了用户的问题?
  2. 歧义检测(Ambiguity Detection):智能体能否准确识别查询中的模糊之处?
  3. 交互策略(Interaction Strategy):智能体提出的澄清问题是否有效、自然且高效?
  4. 成本效率(Cost Efficiency):在达成目标的过程中,智能体的交互次数和计算成本是否合理?

3. 实验结果与发现

研究团队在多个代表性的 LLM 上进行了实验,得出了几个关键结论:

  • 能力分离:歧义检测(识别出问题)和有效澄清(提出好问题)是两种截然不同的能力。一个模型可能擅长发现问题,但不一定擅长通过提问来解决问题。
  • “搜索”优于“猜测”的误区被打破:实验显示,在遇到模糊查询时,智能体反复进行搜索(Retrieval)而不是主动询问用户澄清,其表现往往比直接猜测(Direct Guessing)还要差。
  • 核心差距:当前搜索智能体在“检索能力”与“交互式问题解决能力”之间存在显著差距。现有的模型倾向于通过增加检索步骤来弥补信息不足,而非通过对话来明确意图。

关键要点

  • 现实查询的模糊性被低估:现有基准假设查询是明确的,但现实中的查询常存在歧义、信息缺失或事实错误,这会导致多步推理链条中的错误累积。
  • DiscoBench 的核心价值:它是首个专注于评估智能体“澄清感知”能力的基准,强调智能体应主动识别歧义并通过交互纠正推理路径,而非被动执行检索。
  • 交互比盲目检索更重要:实验证明,面对模糊查询,盲目增加检索步骤的效果不如直接猜测,甚至更差。智能体需要具备“知道何时提问”的能力。
  • 检测与澄清是两项独立技能:能够发现查询中的歧义,并不等同于能够提出有效的澄清问题。这是当前模型需要突破的双重能力门槛。
  • 评估体系更全面:除了传统的准确率,DiscoBench 引入了交互策略和成本效率的评估,更贴近真实应用场景中对用户体验和资源消耗的考量。

意义与影响

DiscoBench 的提出标志着搜索智能体评估范式的一个重要转变:从**“静态信息查询”转向“动态交互式问题解决”**。

  1. 推动智能体向“顾问”角色进化:传统的搜索引擎或智能体扮演的是“执行者”角色,用户给什么搜什么。DiscoBench 促使模型向“顾问”角色进化,即能够像人类专家一样,通过追问来澄清需求,从而提供更精准的服务。
  2. 揭示当前 LLM 的局限性:实验结果揭示了一个反直觉的现象——在复杂搜索任务中,单纯的检索增强(RAG)策略在处理模糊意图时存在瓶颈。这提示开发者,未来的优化方向不应仅局限于提升检索精度,更应强化模型的对话理解和主动澄清能力。
  3. 为下一代搜索架构提供基准:随着 AI Agent 在客服、科研辅助、复杂决策支持等领域的深入应用,如何高效处理模糊需求成为核心痛点。DiscoBench 为衡量和优化这一能力提供了标准化的测试床,有助于行业统一评估标准,加速相关技术的落地。

总之,当搜索智能体学会“提问”时,它才真正具备了深度理解人类意图的能力。DiscoBench 正是为了推动这一能力发展而诞生的关键工具。

查看原文 →arxiv.org