技术博客arXiv cs.AI·3 小时前

串联强化学习：让大模型推理更清晰易读

原标题：Tandem Reinforcement Learning with Verifiable Rewards

速览

针对现有验证奖励强化学习导致推理模式漂移的问题，研究提出串联强化学习方法。该方法通过强弱模型交替协作生成推理，使强模型学会生成弱模型可理解的推理链。实验表明，该方法在保持推理能力的同时，显著提升了多模型通信和人类兼容性。

AI 深度解读

Tandem Reinforcement Learning with Verifiable Rewards：深度解读

背景

近年来，基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）在提升大语言模型（LLM）的推理能力方面取得了显著突破。在竞赛数学等特定领域，采用 RLVR 技术的模型已经能够达到专家级甚至超越人类的表现。

然而，这种“精英式”的进步并未自动转化为更广泛的适用性。研究表明，较弱的代理（agents）以及人类用户往往难以有效利用这种增强的推理能力。RLVR 在训练过程中容易引发“分布漂移”（distributional drift），导致模型倾向于产生具有个人独特性但可读性差、甚至出现语言混合的推理模式。这种“黑盒化”或“异质化”的推理过程，使得模型之间的协作以及人机交互变得困难。

为了解决这一兼容性难题，近期出现了一种名为“串联训练”（Tandem Training）的新范式。该范式旨在让一个经过训练的、能力更强的“资深模型”（Senior）与一个冻结的、能力较弱的“初级模型”（Junior）共同生成推理过程。两者作为团队接受奖励，从而迫使资深模型以初级模型能够理解的方式 reasoning（推理）。尽管这一概念已在概念验证（Proof-of-Concept）场景中得到了展示，但其是否能扩展到现代 RLVR 管道中常见的长思维链（Long Chains of Thought）规模，仍是一个未解之谜。

核心内容

本文提出了一种名为 Tandem Reinforcement Learning (TRL) 的新方法，将串联训练范式正式引入到 RLVR 框架中。

1. TRL 的工作机制

在 TRL 架构中，推理的生成过程由资深模型和冻结的初级模型交替随机完成。具体流程如下：

交替生成：资深模型与初级模型在生成推理步骤时随机交替，共同构建完整的推理链。
团队奖励：最终生成的完整推理结果作为一个整体接受奖励评估。
梯度更新：仅对资深模型应用标准的 GRPO（Group Relative Policy Optimization）损失函数进行训练，而初级模型保持冻结状态。

这种机制的核心逻辑在于：由于奖励是基于团队共同生成的结果，资深模型为了获得更高的奖励，必须调整其推理风格，使其更加贴合初级模型的能力范围和理解习惯。

2. 实验设置与结果

研究团队在竞赛数学任务上对 Qwen3-4B-Instruct 模型进行了 TRL 训练，并将其与传统的 vanilla GRPO（纯强化学习基线）进行了对比。

实验发现，TRL 在保持资深模型独立推理能力（Solo Reasoning Capability）方面，与 vanilla GRPO 表现相当。更重要的是，TRL 在相同的 rollout 结构中同时涌现出了三个关键特性：

更强的交接鲁棒性（Handoff Robustness）：资深模型与初级模型在推理步骤交接时更加稳定，减少了因风格突变导致的错误。
减少的分布漂移（Reduced Distributional Drift）：资深模型的推理分布更紧密地围绕初级模型，避免了 RLVR 常见的向不可读或语言混合模式漂移的问题。
更高的可读性（Legibility）：生成的思维链（Chain-of-Thought）对于初级模型（以及潜在的人类用户）来说更加清晰易懂。

关键要点

解决兼容性痛点：TRL 旨在解决 RLVR 模型推理能力增强后，与其他模型或人类用户难以协同工作的核心问题。
双人协作训练范式：通过“资深模型”与“冻结的初级模型”交替生成推理，将单模型优化转化为团队优化。
非对称更新策略：仅更新资深模型，初级模型作为固定基准，迫使资深模型适应初级模型的理解能力。
性能无损增强：在 Qwen3-4B-Instruct 的竞赛数学实验中，TRL 未牺牲模型的独立推理能力，同时改善了推理的可解释性和协作性。
三大涌现特性：
- Handoff Robustness：步骤切换更平滑。
- Reduced Drift：推理风格更稳定，避免异化。
- Legibility：推理过程更易于被弱模型或人类理解。

意义与影响

TRL 的研究结果为大语言模型的强化学习开辟了一条具有实际收益的新路径。

首先，它证明了 RLVR 不仅可以用于提升单模型的极限性能，还可以用于优化多模型通信（Multi-model Communication）。在复杂的 AI 代理系统中，不同能力的模型需要高效协作，TRL 提供了一种让强模型“迁就”弱模型的训练机制，从而降低系统集成的复杂度。

其次，TRL 增强了模型与人类用户的兼容性（Human Compatibility）。通过减少分布漂移和提高思维链的可读性，TRL 生成的推理过程更贴近人类的逻辑习惯，有助于提升用户对 AI 系统的信任度和可用性。

最后，这项工作将串联训练从概念验证推向了规模化应用的可能，为未来构建更加透明、可协作且高效的大语言模型生态系统提供了重要的技术参考。

查看原文 →arxiv.org