跨域可迁移性:一种用于多领域强化学习推理的自动化课程
速览
针对多领域强化学习推理中训练课程固定或人工调参的问题,研究提出了一种名为TAC的在线课程方法。该方法通过重新利用RL训练中的优势信号和投影梯度,以极低成本估算跨域可迁移性,优先选择能广泛惠及其余领域的训练域。实验表明,TAC在多个大模型上取得了最佳宏观平均准确率,显著优于随机采样和仅基于可学习性的课程策略。
AI 深度解读
Transferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR
背景
随着大语言模型(LLM)能力的提升,基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)已成为提升模型推理能力的关键技术。早期的 RLVR 训练通常局限于单一领域(如仅数学或仅编程),但为了培养更通用的推理能力,研究人员开始将训练扩展到涵盖数学、编程和科学等多领域的综合推理套件中。
然而,在多领域 RLVR 的训练过程中,一个核心挑战在于**课程学习(Curriculum Learning)**的设计,即如何决定每个领域在训练过程中的采样频率。目前,大多数现有的方法采用固定的采样比例或人工调优的策略。这种静态或半静态的方法存在一个明显的缺陷:它忽略了不同领域之间推理技能迁移的不均衡性。
现有的基于“可学习性(Learnability)”的动态课程虽然能够根据策略当前改进最快的领域进行自适应调整,但它们存在一个盲点:它们只关注当前领域本身的梯度收益,而忽略了在该领域上进行的梯度更新是否有助于提升其他未选中领域的性能。换句话说,现有的方法无法感知跨领域的“迁移效应”。
核心内容
针对上述问题,本文提出了一种名为 Transfer-Aware Curriculum (TAC,感知迁移的课程) 的新方法。这是一种基于博弈论风格(bandit-style)的在线课程学习算法,其核心目标是优先选择那些其参数更新能够广泛惠及整个训练套件中其他领域的领域。
1. 核心机制:利用现有信号估算迁移性
TAC 的创新之处在于它没有引入昂贵的额外计算开销,而是重新利用了 RL 训练过程中已经产生的信号来估算跨领域迁移性:
- 局部可学习性(Local Learnability): 通过每个领域的优势值(per-domain advantages)来捕捉。这反映了模型在当前领域上的改进潜力。
- 跨领域迁移性(Cross-Domain Transferability): 通过从正在计算的 GRPO(Group Relative Policy Optimization)步骤中提取的**投影梯度(projected gradients)**来估算。具体而言,TAC 利用梯度几何对齐(gradient-geometry alignment)来衡量当前领域的梯度方向与其他领域潜在优化方向的一致性。
2. 计算效率
TAC 的设计极具工程实用性。通过复用 GRPO 步骤中已有的梯度信息,估算跨领域迁移性的额外计算开销极低,仅占 wall-clock time(实际运行时间)的不到 1%。这意味着该方法可以无缝集成到现有的 RLVR 训练流程中,而不会显著拖慢训练速度。
3. 实验验证
研究者在包含六个领域的综合推理套件上对 TAC 进行了评估,主要使用 Qwen3-1.7B 和 Llama3.2-3B 作为基座模型。实验结果如下:
- 性能优势: TAC 在宏观平均准确率(macro-averaged accuracy)上取得了最佳成绩。
- 对比基线: TAC 优于以下三种基线方法:
- 按比例随机采样(Proportional random sampling);
- 人工设计的调度策略(Hand-designed schedule);
- 仅基于可学习性的博弈论方法(Learnability-only bandit)。
- 具体提升: 与仅基于可学习性的最佳基线相比,TAC 的性能提升了高达 2.8 个百分点(相对提升 10%)。
4. 消融实验与鲁棒性
- 迁移性的重要性: 消融实验显示,如果移除迁移性项,性能会急剧下降,证明了跨领域迁移信号在课程设计中不可或缺。
- 处理数据不平衡: 在训练数据分布不平衡的情况下,仅基于可学习性的课程往往会过度集中于主导领域(dominant domains),导致其他领域训练不足。相比之下,TAC 在这种场景下表现出更强的鲁棒性,能够更均衡地分配训练资源。
关键要点
- 问题定义: 多领域 RLVR 训练中,现有的课程学习策略(固定或仅基于可学习性)无法感知梯度更新对未选中领域的跨领域迁移收益。
- 方法创新: 提出 TAC(Transfer-Aware Curriculum),一种在线博弈论风格的课程,优先选择能带来广泛跨领域收益的领域。
- 技术实现:
- 利用 per-domain advantages 估算局部可学习性。
- 利用 GRPO 步骤中的投影梯度,通过梯度几何对齐估算跨领域迁移性。
- 计算开销极低(<1% wall-clock overhead)。
- 实验结果:
- 在 Qwen3-1.7B 和 Llama3.2-3B 上,TAC 在六领域推理套件中取得最佳宏观平均准确率。
- 优于随机采样、人工调优和仅基于可学习性的基线,相对提升最高达 10%。
- 鲁棒性验证: 移除迁移性信号会导致性能大幅下降;在训练数据不平衡时,TAC 比仅关注可学习性的方法更能避免对主导领域的过度拟合。
意义与影响
这项研究确立了**跨领域迁移性(cross-domain transferability)**作为多领域 RLVR 课程设计的核心信号。其意义主要体现在以下几个方面:
- 理论突破: 它打破了传统课程学习仅关注“当前领域进步速度”的局限,引入了“全局协同进步”的视角,为多任务学习中的资源分配提供了新的理论依据。
- 工程实用: TAC 方法以极低的计算成本(<1%)实现了显著的性能提升,证明了在大规模模型训练中,优化训练策略(Curriculum Design)与优化模型架构同等重要,且具备极高的落地可行性。
- 通用推理能力提升: 通过更智能地平衡数学、编程、科学等不同领域的训练,TAC 有助于培养出具有更强泛化能力和通用推理能力的大语言模型,这对于解决复杂的多步骤逻辑问题至关重要。
- 解决数据不平衡问题: 在实际应用中,高质量的多领域数据往往是不平衡的。TAC 对不平衡混合数据的鲁棒性,使其在实际部署中具有更高的实用价值,能够防止模型因数据偏差而导致的技能退化。
