技术博客arXiv cs.CL·1 小时前

超越奖励工程：数据配方提升长上下文强化学习

原标题：Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

速览

针对大模型长上下文推理能力，研究提出一种以数据为中心的强化学习方案。该方案仅需简单的基于结果的GRPO设置，配合精心构建的1.4万条多任务数据，即可大幅超越现有RL训练集效果。实验显示，该方法在多个基准测试中取得显著增益，并能有效迁移至智能体任务。

AI 深度解读

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

背景

长上下文推理（Long-context reasoning）已成为大型语言模型（LLMs）的一项核心能力，特别是在模型被部署为自主智能体（Autonomous Agents）时，模型必须在漫长的交互轨迹中进行复杂的逻辑推导。近年来，强化学习（Reinforcement Learning, RL）已成为提升这一能力的主导范式。

然而，现有的研究工作大多集中在“奖励工程”（Reward Engineering）上，即如何设计更精准的奖励函数来引导模型行为，而对于多样化训练数据的构建却关注不足，导致高质量、多样化的长上下文训练数据依然稀缺。这种数据层面的缺失限制了RL在长上下文任务中的潜力发挥。

核心内容

本文从“以数据为中心”（Data-centric）的视角重新审视了这一难题。作者提出，仅凭一个简单但有效的“数据配方”（Data Recipe），配合最小化的基于结果的GRPO（Group Relative Policy Optimization）设置，就足以显著提升长上下文推理能力。

1. 数据配方与任务家族

该研究构建并精心策划了八个数据集，总计约 14,000 个示例。这些数据专门针对三个互补的任务家族：

检索（Retrieval）：从长文本中准确提取信息。
多证据综合（Multi-evidence Synthesis）：整合来自不同来源或文档的多个证据以形成结论。
推理（Reasoning）：基于长上下文进行逻辑推导。

2. 实验设置与模型

研究在三个不同规模的 Qwen 模型上进行了实验：

Qwen3-4B
Qwen3-8B
Qwen3-30B-A3B

实验采用了最小化的基于结果的 GRPO 设置，重点验证数据配方对模型性能的影响，而非复杂的奖励机制设计。

3. 性能提升结果

在七个长上下文基准测试中，上述三个模型的平均提升幅度分别为：

Qwen3-4B: +7.2 分
Qwen3-8B: +3.2 分
Qwen3-30B-A3B: +6.4 分

这一结果超越了此前基于 RL 训练集所取得的性能表现，证明了高质量数据配方的有效性。

4. 智能体任务迁移

研究进一步验证了这些提升在智能体（Agentic）任务中的可迁移性。通过在已针对智能体微调的模型上继续使用本文的数据配方进行 RL 训练，取得了显著进展：

GAIA 基准: 提升 +4.8 分
BrowseComp 基准: 提升 +7.0 分

这表明，针对长上下文推理优化的数据配方不仅能提升基础推理能力，还能有效增强智能体在复杂环境中的表现。

关键要点

数据重于奖励工程：在长上下文 RL 中，构建多样化的优质数据配方比单纯优化奖励函数更为关键且有效。
极简主义 RL 设置：配合最小化的基于结果的 GRPO，简单的数据配方即可带来显著增益，降低了 RL 训练的复杂度和门槛。
三大任务家族覆盖：数据配方涵盖了检索、多证据综合和推理三个互补领域，确保了模型能力的全面性。
显著的性能跃升：在 Qwen3 系列模型上，长上下文基准测试平均提升超过 3-7 分，超越了先前的 RL 训练成果。
智能体能力增强：该数据配方成功迁移至 GAIA 和 BrowseComp 等智能体基准测试，证明了其在实际自主代理场景中的实用价值。
开源承诺：作者计划公开这八个数据集，以促进未来相关研究的发展。

意义与影响

这项研究挑战了当前 RL 领域过度依赖“奖励工程”的倾向，强调了数据质量与多样性在长上下文学习中的核心地位。对于大型语言模型开发者而言，这意味着在追求更复杂的 RL 算法之前，应优先投入资源构建涵盖检索、综合和推理的多样化长上下文数据集。

此外，研究结果证实了长上下文推理能力与智能体表现之间的强相关性。通过在基础推理任务上优化数据配方，可以直接赋能智能体在复杂环境（如 GAIA 和 BrowseComp）中的表现。这不仅为提升 LLM 的长上下文能力提供了一条低成本、高效率的路径，也为构建更强大的自主智能体提供了坚实的数据基础。随着数据集的开源，这一“数据配方”有望成为长上下文 RL 研究的新基准。

查看原文 →arxiv.org