技术博客arXiv cs.AI·3 天前

基于结构感知奖励的规划中心强化学习赋能深度研究

原标题：Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

速览

针对深度研究任务中规划与执行难以解耦的问题，研究提出DecomposeR框架，将研究计划表示为类型化的有向无环图。该框架采用两阶段强化学习策略，先优化图结构与查询分解，再学习分支执行与最终合成。实验表明，该方法在主流长文基准上较基线模型提升5.1-8.0分，有效解决了端到端训练的模糊性问题。

AI 深度解读

Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

背景

随着大语言模型（LLM）在复杂任务中的能力不断拓展，“深度研究”（Deep Research）已成为衡量模型推理与执行能力的重要标杆。这类任务要求模型不仅要进行简单的问答，还需要具备规划调查路径、检索多源证据，并在多个探究分支上综合生成长篇回答的能力。

然而，现有的训练范式在这一领域面临显著瓶颈。主流方法通常依赖两种策略：一是使用简短且可验证的问答（Short-form verifiable QA）作为代理任务进行训练；二是直接优化单一的长轨迹（Monolithic long trajectories）。这两种方法都存在一个共同缺陷：规划（Planning）与执行（Execution）难以解耦。

在端到端的长轨迹训练中，模型很难区分“规划错误”与“执行错误”，导致信用分配（Credit Assignment）模糊。也就是说，当最终答案出错时，模型难以判断是因为初始的研究计划不合理，还是后续的证据检索或综合环节出现了偏差。这种模糊性严重制约了模型在复杂规划任务上的表现上限。

核心内容

针对上述痛点，研究人员提出了 DecomposeR，这是一个以规划者为中心（Planner-Centric）的深度研究框架。该框架的核心创新在于将研究计划表示为类型化的有向无环图（Typed Directed Acyclic Graphs, DAGs），从而使规划过程变得显式、结构化且可奖励。

1. 结构化规划表示

DecomposeR 摒弃了线性的文本生成模式，转而使用 DAG 来建模研究计划。在这种结构中，每个节点代表一个具体的子任务或查询，边代表依赖关系。这种结构化的表示方式使得规划不再是黑盒，而是可以被明确识别和评估的对象。

2. 两阶段强化学习训练

为了有效利用这种结构化表示，DecomposeR 采用两阶段强化学习（RL）策略对 Qwen3-8B 模型进行训练：

第一阶段：规划者强化学习（Planner RL） 此阶段专注于学习图结构的生成和查询分解能力。模型被训练去生成合理的 DAG 结构，从而优化研究计划的制定。这一阶段的目标是提升模型在“做什么”和“怎么做”层面的规划能力。
第二阶段：回答者强化学习（Answerer RL） 在规划者模型收敛后，此阶段专注于分支级别的执行和最终的综合。模型基于第一阶段学到的计划，学习如何具体执行每个分支的查询，并最终整合所有分支的结果生成最终答案。

3. 结构感知奖励（Structure-Aware Reward）

DecomposeR 的关键机制在于奖励函数的设计。与传统方法将整个长轨迹视为一个整体不同，DecomposeR 将奖励分配给显式的规划者 token 和结构化的组件。

这种细粒度的优化方式带来了两个主要优势：

更精细的规划优化：模型可以直接从规划步骤的正确性中获得反馈，从而快速修正计划逻辑。
减少端到端训练的模糊性：通过将奖励信号隔离到特定的结构组件，降低了训练过程中的噪声，使得信用分配更加清晰。

关键要点

框架名称：DecomposeR，一种以规划者为中心的深度研究框架。
核心模型：基于 Qwen3-8B 进行两阶段强化学习微调。
技术突破：引入类型化有向无环图（Typed DAGs）作为研究计划的表示形式，实现规划的结构化与显式化。
训练策略：
- Planner RL：优先学习图结构和查询分解，优化规划能力。
- Answerer RL：随后学习基于计划的分支执行与最终综合。
奖励机制：采用结构感知奖励，针对显式规划 token 和结构化组件分配奖励，而非仅针对最终输出。
实验结果：在流行的长篇回答基准测试中，DecomposeR-8B 相比强大的开源基线模型提升了 5.1-8.0 分，主要得益于规划能力和回答能力的双重提升。

意义与影响

DecomposeR 的提出标志着大模型在复杂推理任务训练范式上的一个重要转变。

首先，它解决了长期困扰强化学习领域的信用分配难题。通过显式地分离规划与执行，并针对结构组件进行奖励，模型能够更准确地理解哪些决策导致了最终结果的好坏，从而加速收敛并提升性能。

其次，结构化表示为模型的可解释性提供了可能。研究者可以直观地查看模型生成的 DAG，分析其推理路径和依赖关系，这比观察一堆线性的文本 token 更具洞察力。

最后，实验数据的提升证明了**“规划优先”**策略的有效性。在深度研究等需要多步推理和证据综合的任务中，良好的规划是高质量执行的前提。DecomposeR 通过强化学习显式地优化这一前提，为构建更可靠、更强大的 AI 研究助手提供了新的技术路径。这对于需要高精度、长上下文和多源信息整合的企业级应用（如金融分析、法律研究、科学文献综述）具有极高的参考价值。

查看原文 →arxiv.org