基于结构感知奖励的规划中心强化学习赋能深度研究
速览
针对深度研究任务中规划与执行难以解耦的问题,研究提出DecomposeR框架,将研究计划表示为类型化的有向无环图。该框架采用两阶段强化学习策略,先优化图结构与查询分解,再学习分支执行与最终合成。实验表明,该方法在主流长文基准上较基线模型提升5.1-8.0分,有效解决了端到端训练的模糊性问题。
AI 深度解读
Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward
背景
随着大语言模型(LLM)在复杂任务中的能力不断拓展,“深度研究”(Deep Research)已成为衡量模型推理与执行能力的重要标杆。这类任务要求模型不仅要进行简单的问答,还需要具备规划调查路径、检索多源证据,并在多个探究分支上综合生成长篇回答的能力。
然而,现有的训练范式在这一领域面临显著瓶颈。主流方法通常依赖两种策略:一是使用简短且可验证的问答(Short-form verifiable QA)作为代理任务进行训练;二是直接优化单一的长轨迹(Monolithic long trajectories)。这两种方法都存在一个共同缺陷:规划(Planning)与执行(Execution)难以解耦。
在端到端的长轨迹训练中,模型很难区分“规划错误”与“执行错误”,导致信用分配(Credit Assignment)模糊。也就是说,当最终答案出错时,模型难以判断是因为初始的研究计划不合理,还是后续的证据检索或综合环节出现了偏差。这种模糊性严重制约了模型在复杂规划任务上的表现上限。
核心内容
针对上述痛点,研究人员提出了 DecomposeR,这是一个以规划者为中心(Planner-Centric)的深度研究框架。该框架的核心创新在于将研究计划表示为类型化的有向无环图(Typed Directed Acyclic Graphs, DAGs),从而使规划过程变得显式、结构化且可奖励。
1. 结构化规划表示
DecomposeR 摒弃了线性的文本生成模式,转而使用 DAG 来建模研究计划。在这种结构中,每个节点代表一个具体的子任务或查询,边代表依赖关系。这种结构化的表示方式使得规划不再是黑盒,而是可以被明确识别和评估的对象。
2. 两阶段强化学习训练
为了有效利用这种结构化表示,DecomposeR 采用两阶段强化学习(RL)策略对 Qwen3-8B 模型进行训练:
-
第一阶段:规划者强化学习(Planner RL) 此阶段专注于学习图结构的生成和查询分解能力。模型被训练去生成合理的 DAG 结构,从而优化研究计划的制定。这一阶段的目标是提升模型在“做什么”和“怎么做”层面的规划能力。
-
第二阶段:回答者强化学习(Answerer RL) 在规划者模型收敛后,此阶段专注于分支级别的执行和最终的综合。模型基于第一阶段学到的计划,学习如何具体执行每个分支的查询,并最终整合所有分支的结果生成最终答案。
3. 结构感知奖励(Structure-Aware Reward)
DecomposeR 的关键机制在于奖励函数的设计。与传统方法将整个长轨迹视为一个整体不同,DecomposeR 将奖励分配给显式的规划者 token 和结构化的组件。
这种细粒度的优化方式带来了两个主要优势:
- 更精细的规划优化:模型可以直接从规划步骤的正确性中获得反馈,从而快速修正计划逻辑。
- 减少端到端训练的模糊性:通过将奖励信号隔离到特定的结构组件,降低了训练过程中的噪声,使得信用分配更加清晰。
关键要点
- 框架名称:DecomposeR,一种以规划者为中心的深度研究框架。
- 核心模型:基于 Qwen3-8B 进行两阶段强化学习微调。
- 技术突破:引入类型化有向无环图(Typed DAGs)作为研究计划的表示形式,实现规划的结构化与显式化。
- 训练策略:
- Planner RL:优先学习图结构和查询分解,优化规划能力。
- Answerer RL:随后学习基于计划的分支执行与最终综合。
- 奖励机制:采用结构感知奖励,针对显式规划 token 和结构化组件分配奖励,而非仅针对最终输出。
- 实验结果:在流行的长篇回答基准测试中,DecomposeR-8B 相比强大的开源基线模型提升了 5.1-8.0 分,主要得益于规划能力和回答能力的双重提升。
意义与影响
DecomposeR 的提出标志着大模型在复杂推理任务训练范式上的一个重要转变。
首先,它解决了长期困扰强化学习领域的信用分配难题。通过显式地分离规划与执行,并针对结构组件进行奖励,模型能够更准确地理解哪些决策导致了最终结果的好坏,从而加速收敛并提升性能。
其次,结构化表示为模型的可解释性提供了可能。研究者可以直观地查看模型生成的 DAG,分析其推理路径和依赖关系,这比观察一堆线性的文本 token 更具洞察力。
最后,实验数据的提升证明了**“规划优先”**策略的有效性。在深度研究等需要多步推理和证据综合的任务中,良好的规划是高质量执行的前提。DecomposeR 通过强化学习显式地优化这一前提,为构建更可靠、更强大的 AI 研究助手提供了新的技术路径。这对于需要高精度、长上下文和多源信息整合的企业级应用(如金融分析、法律研究、科学文献综述)具有极高的参考价值。
