← 返回信息流
技术博客arXiv cs.AI·4 小时前

DailyReport:面向日常搜索任务的开放评测基准

原标题:DailyReport: An Open-ended Benchmark for Evaluating Search Agents on Daily Search Tasks

速览

研究团队推出DailyReport,这是一个用于评估搜索智能体在日常搜索任务中能力的开放式基准。该基准包含150个任务和3546条细粒度评分标准,通过级联评估机制提供高度可解释的分数。对17个智能体系统的测试显示,当前系统仍未能满足用户期望。

AI 深度解读

DailyReport:面向日常搜索任务的开放型基准评测

背景

随着大语言模型(LLM)技术的飞速发展,搜索代理(Search Agents, SAs)已成为处理复杂信息检索任务的重要工具。这类代理通常利用 LLM 作为大脑,自主探索网络资源,并将分散的信息综合为全面的回答,从而支持用户完成从简单查询到深度研究的各种信息寻求任务。

然而,当前的评估体系存在明显的局限性。现有的基准测试(Benchmarks)主要侧重于特定领域或高度专业化的任务,这些任务在真实世界的用户场景中极少出现,导致评估结果与实际用户体验脱节。此外,传统评估往往依赖粗粒度的任务级评分标准(coarse task-level rubrics),这种“黑盒”式的打分方式缺乏可解释性,难以精准定位模型在哪些具体维度上表现良好或存在缺陷。

为了填补这一空白,研究人员引入了 DailyReport,这是一个专为评估搜索代理在“日常搜索任务”中能力而设计的开放型基准。

核心内容

DailyReport 的核心目标是构建一个更贴近真实用户需求的评估框架,其具体构成和方法论如下:

1. 数据集规模与构成

  • 任务数量:包含 150 个开放型任务(open-ended tasks)。
  • 评估细则:每个任务关联 3,546 条具体的评估细则(rubrics),形成了细粒度的评价网络。
  • 内容来源:这些任务捕捉了现实世界中用户广泛讨论且时效性强的信息需求,涵盖了新闻、生活建议、技术查询等日常场景。

2. 细粒度评估方法论

DailyReport 摒弃了单一的整体打分,采用了一种分层解耦的评估策略:

  • 任务分解:将每个复杂的搜索任务分解为多个子任务(subtasks)。
  • 级联细则(Cascade Rubrics):在不同的解耦维度(disentangled dimensions)上应用级联细则进行独立评估。这意味着模型的表现会被拆解为事实准确性、信息完整性、来源可靠性等多个独立维度。

3. 可解释性评分机制

为了提升评估的可解释性,研究提出了一种新的评分推导流程:

  • 级联性能归因(Cascade Performance Attribution):通过分析子任务的表现,归因到具体的评估维度。
  • 以用户为中心的聚合(User-centric Aggregation):将各维度的得分聚合,最终生成两个关键指标:
    1. 各维度得分:清晰展示模型在特定能力上的强弱。
    2. 用户偏好得分(User Preference Score):模拟真实用户满意度的综合评分。

4. 实验结果

研究团队使用 17 种主流的代理系统(Agentic Systems)在 DailyReport 上进行了测试。结果显示,尽管 LLM 能力在不断进步,但当前的搜索代理系统在满足用户日常搜索期望方面仍存在显著差距。

关键要点

  • 填补评估空白:DailyReport 解决了现有基准测试过于专业化、脱离真实用户场景的问题,专注于“日常搜索”这一高频需求。
  • 高细粒度与可解释性:通过 150 个任务和 3,546 条细则,结合级联评估和性能归因,提供了比传统总分更具诊断意义的评估结果。
  • 双维度评分体系:不仅提供各解耦维度的独立得分,还计算了反映真实用户体验的“用户偏好得分”。
  • 现状严峻:对 17 个代理系统的评测表明,当前技术尚未完全达到用户对日常搜索任务的预期,仍有较大的提升空间。
  • 开源开放:为了促进未来研究,该数据集和代码已公开可用(via the provided URL)。

意义与影响

DailyReport 的发布对搜索代理领域具有重要的指导意义:

  1. 推动评估标准化:它建立了一套更贴近人类用户视角的评估标准,有助于行业从“模型中心”转向“用户中心”的评估范式。
  2. 指导模型优化:通过提供细粒度的维度得分,研究人员可以明确知道模型是在“事实查找”、“信息综合”还是“来源验证”环节存在短板,从而进行针对性的优化。
  3. 加速技术迭代:开源的数据集和代码降低了研究门槛,鼓励更多开发者参与搜索代理能力的提升,有望加速该技术从实验室走向更广泛的日常应用场景。

总之,DailyReport 不仅是一个测试工具,更是连接大语言模型能力与真实用户需求之间的重要桥梁。

查看原文 →arxiv.org