← 返回信息流
技术博客arXiv cs.AI·1 小时前

Dr-DCI:通过动态工作区扩展实现语料库交互规模化

原标题:Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

速览

Dr-DCI是一种检索器引导的直接语料库交互框架,通过动态将相关文档拉取至本地工作区,结合检索的召回能力与交互的精确性。该方法在Browsecomp-Plus等基准测试中显著超越原始DCI及BM25,且在千万级文档规模下保持稳定高效。

AI 深度解读

Dr-DCI:通过动态工作区扩展实现直接语料库交互的规模化

背景

在大型语料库(Large Corpora)上的智能体搜索(Agentic Search)主要依赖于检索器介导的接口(如 BM25 或 ColBERT)来进行可扩展的候选项发现。虽然这些接口在相关文档的排序方面非常有效,但它们通常只以排序后的结果列表或受限的文档视图形式暴露证据。这种局限性限制了智能体重新组织材料以及在多个文档之间验证约束条件的能力。

为了解决这一局限,直接语料库交互(Direct Corpus Interaction, DCI)通过暴露可执行 Shell 命令的语料库操作,提供了灵活的搜索、过滤、比较和验证功能。然而,随着语料库规模的扩大,全语料库级别的终端命令变得缓慢且不稳定,导致性能下降和效率降低。

核心内容

针对上述挑战,研究人员提出了 DR-DCI(Retriever-steered Direct Corpus Interaction,检索器引导的直接语料库交互)框架。该框架的核心思想是将检索视为一种智能体可调用的动作,用于扩展本地工作区(Local Workspace)。

1. 动态工作区机制

DR-DCI 不再直接在整个全量语料库上操作,而是由智能体动态地将相关文档拉取到一个不断演化的本地工作区中,并在该工作区内执行 DCI 操作。这种设计结合了检索层面的召回能力(Recall)和 DCI 风格的精确度(Precision):

  • 检索:保持探索过程的可扩展性。
  • DCI:保留解决证据所需本地操作能力。

2. 实验结果与性能

实验表明,DR-DCI 在不同规模下既有效又高效:

  • Browsecomp-Plus 数据集表现

    • DR-DCI 达到了 71.2% 的准确率。
    • 相比原始 DCI 和消融变体,准确率最高提升了 8.3 个百分点
    • 同时减少了工具使用次数、墙钟时间(Wall Time)和估计成本。
    • 引入“保留工作区的上下文重置”(Workspace-preserving context reset)后,准确率进一步提升至 73.3%
  • 语料库规模扩展性测试

    • 在从 10万 到 1000万 文档的范围内,DR-DCI 保持有效性。
    • 相比之下,原始 DCI 变得不稳定,而 BM25 的表现显著变差。
  • 超大规模测试

    • DR-DCI 成功扩展至 2000万 规模的 Wiki-18 QA 设置(每个文档对应一个文件)。
    • 在六个基准测试中平均得分 63.0,优于基于检索的基线模型和经过训练的搜索智能体基线。
  • 消融分析

    • 排序预览(Ranked Previews)和文档间 DCI(Inter-document DCI)是性能提升的关键因素。

关键要点

  • 解决全量操作瓶颈:DR-DCI 通过动态拉取文档到本地工作区,解决了传统 DCI 在全语料库上执行 Shell 命令时随规模扩大而导致的缓慢和不稳定问题。
  • 混合架构优势:结合了检索器的高效召回能力与 DCI 的精细本地操作能力,实现了可扩展性与精确性的平衡。
  • 显著的性能提升:在 Browsecomp-Plus 上准确率最高提升 8.3%,并通过上下文重置优化进一步达到 73.3%。
  • 卓越的扩展性:在 100万 至 2000万 文档的极端规模下,DR-DCI 依然稳定有效,远超原始 DCI 和 BM25 等传统方法。
  • 成本与效率优化:在提高准确率的同时,减少了工具调用次数、处理时间和计算成本。
  • 关键组件确认:排序预览和跨文档交互操作被证明是驱动性能提升的核心组件。

意义与影响

DR-DCI 的提出标志着智能体在大规模非结构化数据检索与推理任务上的重要进展。它证明了通过“检索引导+动态工作区”的架构,可以克服传统直接语料库交互在规模扩展性上的固有缺陷。

这一方法不仅为处理千万级文档库提供了可行的技术路径,还通过减少不必要的工具调用和计算资源消耗,降低了大规模智能体应用的运行成本。对于需要高精度证据验证和复杂多文档推理的应用场景(如法律文档分析、科学文献综述、深度新闻调查等),DR-DCI 提供了一种兼具效率、准确性和可扩展性的新范式。

查看原文 →arxiv.org