技术博客arXiv cs.AI·2 小时前

DuMate-DeepResearch：基于多智能体与递归搜索的可审计深度研究系统

原标题：DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning

速览

DuMate-DeepResearch是一种基于千帆智能体工厂构建的多智能体深度研究框架，旨在解决现有系统在长程规划、幻觉风险及过程审计方面的局限。该系统通过解耦核心智能体与工具生态，引入基于图的动态规划、递归两级执行及基于量规的测试时优化机制，实现了决策的完全可追溯。在DeepResearch Bench和Bench II两大基准测试中，该系统均取得最佳总分，并在信息召回与分析方面排名第一。

AI 深度解读

DuMate-DeepResearch：基于递归搜索与量规推理的可审计多智能体系统深度解读

背景

Deep Research（深度研究）作为一种新兴的代理式（Agentic）范式，旨在解决复杂且开放式的科研任务。这类任务要求系统具备迭代地构建问题框架、获取证据、验证来源以及综合生成长篇报告的能力。

然而，在实际应用中，当前的 Deep Research 系统面临着四个相互关联的局限性：

规划困境：在范围定义不明确的情况下，进行长周期（long-horizon）规划极具挑战。
单点瓶颈：将此类任务分解并调度给单个智能体（Agent）时，存在明显的性能瓶颈。
幻觉风险：在生成长篇综合报告的过程中，容易产生事实性错误（幻觉）。
审计缺失：缺乏对决策过程的透明度和可追溯性，导致过程难以审计。

针对上述痛点，本文介绍了 DuMate-DeepResearch，这是一个基于 Qianfan Agent Foundry 构建的多智能体 Deep Research 框架。该框架旨在通过解耦核心逻辑与工具生态，实现每一步中间决策和工具调用的显式可追溯。

核心内容

DuMate-DeepResearch 的核心架构建立在 Qianfan Agent Foundry 之上，其设计哲学在于“解耦”与“增强”。

1. 架构解耦：核心与生态分离

该框架将系统明确划分为两个部分：

Agent Core（智能体核心）：负责任务理解、规划制定以及任务调度。
Tool Ecosystem（工具生态系统）：负责检索、证据获取以及报告渲染，且具有高度的可扩展性。

这种分离使得每一个中间决策和工具调用都变得显式且可追踪，从而解决了传统单一大模型在处理复杂任务时“黑盒”化严重的问题。

2. 三大创新机制

基于上述基础设施，DuMate-DeepResearch 引入了三项关键机制来提升深度研究的质量与可靠性：

基于图的动态规划策略（Graph-based Dynamic Planning） 该策略采用“由粗到细”的方式扩展研究路线图。系统不仅制定初始计划，还通过反思（reflection）、重新规划（re-planning）、回溯（backtracking）以及并行分支（parallel branching）等机制，持续修订和优化研究路径。这种动态调整能力使得系统能够应对开放式研究中不断涌现的新信息或偏差。
递归两级执行设计（Recursive Two-level Execution） 为了解决长周期执行的稳定性问题，系统采用递归设计。每个复杂的搜索子任务都被委托给一个内部的 Search Agent。这个内部智能体拥有自己的规划循环，负责处理具体的检索任务。这种设计将嘈杂的检索过程隔离出来，稳定了长周期的执行流程，避免了单一智能体因上下文过长或任务过载而导致的性能下降。
基于量规的测试时优化机制（Rubric-based Test-time Optimization） 这是一种动态生成特定任务质量标准的机制。系统会根据当前任务动态生成“量规”（Rubrics），并将这些量规作为实时的推理脚手架（scaffolds）。这不仅指导了基于证据的综合过程，还实现了自适应停止（adaptive stopping）——即当生成的报告满足预设的质量标准时，系统自动终止生成，从而避免冗余输出并降低幻觉风险。

3. 性能表现

在两个深度研究基准测试中，DuMate-DeepResearch 均取得了新的最先进（SOTA）结果：

在 DeepResearch Bench 上，取得了最高的总体得分 58.03%。
在 DeepResearch Bench II 上，取得了最高的总体得分 61.95%，并在信息召回率（information recall）和分析能力方面排名第一。

关键要点

多智能体协作：不同于单一大模型，DuMate-DeepResearch 利用多智能体架构，将规划、检索和生成任务分离，提升了系统的模块化和可维护性。
可审计性（Auditability）：通过解耦 Agent Core 和 Tool Ecosystem，系统实现了决策过程的全程可追溯，这对于需要高可信度的科研场景至关重要。
动态规划与反思：研究路线图不是静态的，而是通过基于图的策略进行动态调整，包括回溯和并行分支，以应对复杂多变的搜索空间。
递归隔离噪声：通过内部 Search Agent 的递归调用，将具体的检索噪声隔离在子任务中，保证了主任务执行的稳定性。
动态质量约束：引入“量规”作为推理脚手架，不仅提高了生成内容的质量，还通过自适应停止机制优化了资源使用和输出效率。
基准测试领先：在两个主流 Deep Research 基准上均刷新了 SOTA 记录，证明了其在信息召回和分析深度上的优越性。

意义与影响

DuMate-DeepResearch 的提出标志着 AI 代理从简单的“问答”或“执行”向真正的“深度研究”迈进了一大步。

首先，它解决了当前 AI 系统在长周期、开放式任务中的可信度危机。通过引入可审计性和基于量规的推理，系统不仅给出答案，还展示了答案是如何得出的，以及依据了哪些证据。这对于法律、医疗、金融等对准确性要求极高的领域具有潜在的巨大价值。

其次，其递归和多智能体架构为处理超大规模、高复杂度的信息处理任务提供了可行的工程范式。通过隔离检索噪声和动态调整规划，系统能够更稳健地处理现实世界中非结构化、碎片化的信息源。

最后，DuMate-DeepResearch 在基准测试中的优异表现，证明了**“规划+执行+验证”**闭环在深度研究任务中的有效性。它可能成为未来构建下一代 AI 科研助手或自动化知识发现系统的基础架构参考。随着 Qianfan Agent Foundry 等平台的普及，此类可审计、多智能体的研究框架有望加速落地，推动 AI 从内容生成向知识创造转型。

查看原文 →arxiv.org