技术博客arXiv cs.CL·23 小时前

动态 rollout 编辑：减少强化学习推理模型过度思考

原标题：Dynamic Rollout Editing for Reducing Overthinking in RL-Trained Reasoning Models

速览

针对强化学习训练后大模型在得出正确答案后仍继续生成冗余推理的“过度思考”现象，本文将其视为训练时的信用分配问题。研究提出动态 rollout 编辑（DRE）方法，通过保留已验证的正确前缀并编辑后续冗余思考，在不惩罚必要推理的前提下削弱对冗余思考的偏好。实验表明该方法能有效减少过度思考并提升模型性能。

AI 深度解读

动态卷出编辑：减少强化学习训练推理模型中的“过度思考”

背景

大型语言模型（LLM）在解决复杂任务时，长形式的思维链（Chain-of-Thought, CoT）推理通常能显著提升性能。然而，一个普遍存在的问题是：模型在得出正确答案后，往往不会立即停止生成，而是继续输出大量不必要的推理步骤。我们将这种行为定义为**“过度思考”（Overthinking）**。

目前，针对这一现象的研究多集中在解码阶段（decoding-time），即通过调整采样策略或设置停止条件来限制输出长度。但本文从强化学习（RL）后训练的角度出发，将其重新框架化为一个训练时的信用分配（credit-assignment）问题。

在基于 GRPO（Group Relative Policy Optimization，组相对策略优化）风格的强化学习训练中，研究人员观察到一种早期的不平衡现象：对于相同的提示（prompt），成功的推理轨迹（即得出正确答案的轨迹）有时比失败的轨迹表现出更高程度的“过度思考”。由于 GRPO 分配的是序列级别的信用（sequence-level credit），它无法区分“通向解决方案的前缀”和“导致轨迹延长的不必要后续部分”。因此，这两部分都会收到正向的更新信号，导致初始的不平衡在训练过程中演变成更严重的过度思考问题。

核心内容

为了解决上述问题，本文提出了一种名为**动态卷出编辑（Dynamic Rollout Editing, DRE）**的训练时干预机制。DRE 旨在处理那些在答案出现后仍继续“思考”的成功轨迹。

1. 问题机制分析

在 GRPO 训练的早期阶段，模型生成的卷出（rollouts，即采样出的完整推理轨迹）中，成功轨迹往往包含比失败轨迹更多的冗余推理。

信用分配困境：GRPO 算法基于整个序列的奖励来更新策略。如果一条轨迹最终正确，即使其中包含大量无关的中间步骤，整个序列都会获得正向奖励。
恶性循环：这种机制使得模型倾向于学习更长的推理路径，因为“更长”并不被惩罚，反而可能因为最终正确而被强化。这导致模型在训练后期变得更加冗长和低效。

2. DRE 方法原理

DRE 是一种针对成功轨迹的编辑策略，其核心逻辑如下：

保留有效前缀：识别并保留轨迹中经过验证的、通向正确答案的前缀部分（accepted verified prefix）。这部分代表了模型真正的推理能力。
编辑冗余部分：对答案出现后的剩余推理内容进行编辑或截断。
组内偏好学习：在同一个 RL 组内，将编辑后的轨迹与原始轨迹进行对比。DRE 偏好编辑后的轨迹，从而削弱模型对“不必要思考”的偏好信号，同时不惩罚那些为了得出答案所必需的推理过程。

简而言之，DRE 通过人为制造一个“更简洁但同样正确”的对照组，让模型学习到：在得出答案后停止生成是更优的策略，从而在不损失推理准确性的前提下，抑制过度思考。

关键要点

重新定义问题：将“过度思考”从解码时的停止问题转化为强化学习训练中的信用分配问题。
早期不平衡观察：在 GRPO 训练初期，成功轨迹比失败轨迹表现出更多的冗余推理，这是过度思考恶化的起点。
序列级信用的局限性：GRPO 无法区分“有效推理”和“冗余延续”，导致两者均获得正向更新，加剧了模型生成冗长输出的倾向。
DRE 的核心操作：
- 识别成功轨迹中答案出现的位置。
- 保留答案前的有效推理前缀。
- 编辑或移除答案后的冗余部分。
- 在组内比较中，赋予编辑后的轨迹更高偏好，以抑制冗余生成的奖励信号。
实验验证：在多种不同任务上的实验表明，DRE 能有效减少模型的过度思考行为，同时保持推理准确性。

意义与影响

本文的贡献在于揭示了强化学习训练中信用分配机制对模型推理效率的深远影响。传统的解码时优化（如调整温度、最大长度等）只能治标，而 DRE 从训练源头入手，通过修改奖励信号的结构，从根本上引导模型学习更高效的推理模式。

这一方法对于提升推理模型的实际部署效率具有重要意义：

降低计算成本：减少不必要的推理步骤意味着更少的 Token 生成，从而降低推理延迟和算力消耗。
提升用户体验：更简洁、直接的输出更符合人类用户的阅读习惯，避免信息过载。
方法论启示：为后续研究如何处理强化学习中的稀疏奖励、信用分配偏差以及推理效率优化提供了新的思路。

DRE 不仅是一种具体的工程技巧，更是对当前基于 RL 的推理模型训练范式的一种重要反思和优化方向。

查看原文 →arxiv.org