← 返回信息流
技术博客arXiv cs.CL·1 小时前

超越奖励工程:数据配方提升长上下文强化学习

原标题:Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

速览

针对大模型长上下文推理能力,研究提出一种以数据为中心的强化学习方案。该方案仅需简单的基于结果的GRPO设置,配合精心构建的1.4万条多任务数据,即可大幅超越现有RL训练集效果。实验显示,该方法在多个基准测试中取得显著增益,并能有效迁移至智能体任务。

AI 深度解读

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

背景

长上下文推理(Long-context reasoning)已成为大型语言模型(LLMs)的一项核心能力,特别是在模型被部署为自主智能体(Autonomous Agents)时,模型必须在漫长的交互轨迹中进行复杂的逻辑推导。近年来,强化学习(Reinforcement Learning, RL)已成为提升这一能力的主导范式。

然而,现有的研究工作大多集中在“奖励工程”(Reward Engineering)上,即如何设计更精准的奖励函数来引导模型行为,而对于多样化训练数据的构建却关注不足,导致高质量、多样化的长上下文训练数据依然稀缺。这种数据层面的缺失限制了RL在长上下文任务中的潜力发挥。

核心内容

本文从“以数据为中心”(Data-centric)的视角重新审视了这一难题。作者提出,仅凭一个简单但有效的“数据配方”(Data Recipe),配合最小化的基于结果的GRPO(Group Relative Policy Optimization)设置,就足以显著提升长上下文推理能力。

1. 数据配方与任务家族

该研究构建并精心策划了八个数据集,总计约 14,000 个示例。这些数据专门针对三个互补的任务家族:

  • 检索(Retrieval):从长文本中准确提取信息。
  • 多证据综合(Multi-evidence Synthesis):整合来自不同来源或文档的多个证据以形成结论。
  • 推理(Reasoning):基于长上下文进行逻辑推导。

2. 实验设置与模型

研究在三个不同规模的 Qwen 模型上进行了实验:

  • Qwen3-4B
  • Qwen3-8B
  • Qwen3-30B-A3B

实验采用了最小化的基于结果的 GRPO 设置,重点验证数据配方对模型性能的影响,而非复杂的奖励机制设计。

3. 性能提升结果

在七个长上下文基准测试中,上述三个模型的平均提升幅度分别为:

  • Qwen3-4B: +7.2 分
  • Qwen3-8B: +3.2 分
  • Qwen3-30B-A3B: +6.4 分

这一结果超越了此前基于 RL 训练集所取得的性能表现,证明了高质量数据配方的有效性。

4. 智能体任务迁移

研究进一步验证了这些提升在智能体(Agentic)任务中的可迁移性。通过在已针对智能体微调的模型上继续使用本文的数据配方进行 RL 训练,取得了显著进展:

  • GAIA 基准: 提升 +4.8 分
  • BrowseComp 基准: 提升 +7.0 分

这表明,针对长上下文推理优化的数据配方不仅能提升基础推理能力,还能有效增强智能体在复杂环境中的表现。

关键要点

  • 数据重于奖励工程:在长上下文 RL 中,构建多样化的优质数据配方比单纯优化奖励函数更为关键且有效。
  • 极简主义 RL 设置:配合最小化的基于结果的 GRPO,简单的数据配方即可带来显著增益,降低了 RL 训练的复杂度和门槛。
  • 三大任务家族覆盖:数据配方涵盖了检索、多证据综合和推理三个互补领域,确保了模型能力的全面性。
  • 显著的性能跃升:在 Qwen3 系列模型上,长上下文基准测试平均提升超过 3-7 分,超越了先前的 RL 训练成果。
  • 智能体能力增强:该数据配方成功迁移至 GAIA 和 BrowseComp 等智能体基准测试,证明了其在实际自主代理场景中的实用价值。
  • 开源承诺:作者计划公开这八个数据集,以促进未来相关研究的发展。

意义与影响

这项研究挑战了当前 RL 领域过度依赖“奖励工程”的倾向,强调了数据质量与多样性在长上下文学习中的核心地位。对于大型语言模型开发者而言,这意味着在追求更复杂的 RL 算法之前,应优先投入资源构建涵盖检索、综合和推理的多样化长上下文数据集。

此外,研究结果证实了长上下文推理能力与智能体表现之间的强相关性。通过在基础推理任务上优化数据配方,可以直接赋能智能体在复杂环境(如 GAIA 和 BrowseComp)中的表现。这不仅为提升 LLM 的长上下文能力提供了一条低成本、高效率的路径,也为构建更强大的自主智能体提供了坚实的数据基础。随着数据集的开源,这一“数据配方”有望成为长上下文 RL 研究的新基准。

查看原文 →arxiv.org