技术博客arXiv cs.AI·2 天前

CAST：基于非特权裁剪不对称自教学的GRPO强化学习方法

原标题：CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

速览

针对GRPO在强化学习中面临奖励稀疏及组内优势消失的痛点，CAST提出一种无需答案的自蒸馏方法。该方法利用停止梯度的自教师根据轨迹正确性塑造token级优势，并应用双向局部优势符号反转。实验表明，CAST在保持轻量级验证器目标的同时，有效提升了数学推理等任务的大模型训练效果。

AI 深度解读

CAST: 面向 GRPO 的非特权裁剪不对称自教学与优势翻转技术解读

背景

在大型语言模型（LLM）的推理能力增强领域，基于可验证奖励的强化学习（RLVR）已成为主流范式，其中群体相对策略优化（Group Relative Policy Optimization, GRPO）因其高效性而被广泛应用。然而，现有的 RLVR 方法面临两个核心痛点：

稀疏的监督信号：Outcome-level rewards（结果级奖励）仅在整个轨迹（trajectory）结束时提供反馈，导致训练过程中的监督信号稀疏。
零方差问题：在 GRPO 中，优势函数（advantage）是相对于组内其他样本计算的。当提示词（prompt）对应的所有采样轨迹要么全部正确，要么全部错误时，组内差异消失，导致优势函数为零，模型无法从这些样本中获得梯度更新。

为了解决稀疏性问题，On-Policy Self-Distillation（OPSD，策略内自蒸馏）被引入以提供密集的 token 级指导。但实证诊断显示，OPSD 存在局限性：其 token 偏好并不总是与轨迹的正确性对齐。具体而言，在“特权教师上下文”（privileged teacher context，即已知正确答案的上下文）下分析发现，教师模型对正确和错误 rollout 的信号表现出不同的噪声分布，且教师正负信号（teacher-positive/negative gap signals）的行为存在显著差异。

基于上述观察，本研究提出了 CAST（Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO），一种无需答案的自蒸馏方法，旨在保留 GRPO 验证器基础目标的同时，提供更精细的 token 级优势塑形。

核心内容

CAST 的核心创新在于构建了一个“无答案”的自教师（self-teacher），用于根据轨迹的正确性来塑造 token 级的优势，同时解决了传统自蒸馏方法在训练稳定性和数据利用率上的不足。

1. 无答案自教师机制

与依赖参考答案条件评分的传统自蒸馏方法不同，CAST 使用一个停止梯度（stop-gradient）的自教师。该教师不需要访问参考答案（answer-free），而是基于模型自身的生成过程进行自我指导。这意味着在训练过程中，CAST 不需要外部提供的参考解来评分，从而降低了数据准备成本并提高了泛化能力。

2. 非特权上下文与不对称性

CAST 的分析基于“非特权”上下文，即教师模型在评估时并不直接知晓正确答案。这种设置更贴近实际推理场景。CAST 利用这种不对称性，通过裁剪（clipping）机制来控制自教师信号的强度，防止过拟合或噪声干扰。

3. 优势翻转（Advantage Flipping）

这是 CAST 最显著的技术特征。传统的自蒸馏通常假设教师模型生成的 token 总是优于或劣于模型当前生成的 token，但 CAST 引入了双向的局部优势符号反转：

正确轨迹中的教师负向 token：如果在一个最终被验证为正确的轨迹中，自教师对某些 token 给出了负向偏好（teacher-negative），CAST 允许这些 token 获得负向的 token 级优势。这有助于模型学习区分细微的正确性边界。
错误轨迹中的教师正向 token：如果在一个最终被验证为错误的轨迹中，自教师对某些 token 给出了正向偏好（teacher-positive），CAST 允许这些 token 获得有界的正向局部优势。这防止了模型完全忽略教师模型在错误路径上可能捕捉到的部分合理逻辑。

4. 零方差组的处理

针对 GRPO 中常见的“全对”或“全错”组（zero-variance groups），CAST 分配了有界的、符号受限的基础优势（bounded sign-constrained base advantages）。这一机制确保了即使组内没有相对差异，这些样本依然能够通过验证器符号（verifier-signed）提供 token 级的反馈，从而避免梯度消失，充分利用所有训练数据。

5. 训练稳定性

CAST 在整个训练过程中保持自教师的对数概率差（log-probability gap）处于激活状态，并通过裁剪机制限制其影响范围，确保了训练的稳定性。

关键要点

无需参考答案：CAST 是一种 answer-free（无答案）的自蒸馏方法，不依赖参考解条件评分，降低了数据预处理门槛。
保留 GRPO 基础：CAST 保留了验证器基础的 GRPO 目标，确保轨迹级别的正确性验证依然有效。
停止梯度自教师：使用 stop-gradient 的自教师来塑造 token 级优势，避免训练过程中的梯度冲突和不稳定。
双向优势翻转：
- 正确轨迹中的教师负向 token 可获得负优势。
- 错误轨迹中的教师正向 token 可获得有界的正优势。
- 这种不对称处理更精细地利用了教师模型的信号。
解决零方差问题：对于全对或全错的样本组，CAST 分配有界的基础优势，使这些样本也能贡献梯度，解决了 GRPO 中因组内无差异而导致的梯度消失问题。
密集监督信号：通过 token 级优势塑形，CAST 提供了比传统结果级奖励更密集的监督信号，有助于提升推理能力。
实证验证：在数学推理任务上的实验表明，CAST 在保持轻量级、验证器基础的轨迹级目标的同时，有效提升了 RLVR 的训练效果。

意义与影响

CAST 的提出对大型语言模型的强化学习训练具有重要的理论和实践意义：

提升数据效率：通过解决 GRPO 中的零方差问题，CAST 使得“全对”或“全错”的样本不再被浪费，显著提高了训练数据的利用率。
增强推理精度：引入 token 级的不对称自蒸馏和优势翻转，使得模型能够学习到更细粒度的推理逻辑，而不仅仅是最终答案的对错。这对于复杂数学推理、代码生成等需要多步逻辑的任务尤为关键。
简化训练流程：无需参考答案的自教师机制简化了 RLVR 的数据准备流程，使得该方法更容易应用于缺乏高质量参考答案的领域。
推动自蒸馏技术的发展：CAST 展示了如何在非特权、无答案的约束下，有效利用自蒸馏信号来增强策略优化，为后续研究提供了新的思路，即如何更智能地融合轨迹级验证和 token 级偏好。

总之，CAST 是一种在保持 GRPO 高效性的同时，通过精细的 token 级优势塑形来解决稀疏监督和零方差问题的先进方法，有望成为提升大模型推理能力的标准技术之一。

查看原文 →arxiv.org