技术博客arXiv cs.CL·1 天前

分段信用分配让推理模型减少过度思考

原标题：Know When to Stop: Segment-Level Credit Assignment for Reducing Overthinking

速览

大语言模型推理常过度思考，产生无益的自我反思链条。研究发现，即使控制长度，错误轨迹的反思次数仍更高。DASH通过分段信用分配，基于是否每个推理段指向或偏离正确答案来优化训练。实验在数学基准上显著提升性能并减少无用行为，具有重要工程意义。

AI 深度解读

背景

大型语言模型（LLM）在处理复杂推理任务时表现出“过度思考”的现象。特别是 Reasoning language models 在生成答案时，会产生冗长的行为链条，如自我犹豫（hedging）、放弃策略（approach abandonment）和自我矛盾（self-contradiction）。这些行为虽然延长了输出序列，但并未真正提升最终答案的质量，反而消耗了大量 token 资源。

现有研究指出，这些过度思考行为并非单纯由序列长度驱动。即使在严格控制响应长度的条件下，错误的推理轨迹（incorrect traces）中，无效自我反思的比例仍然显著高于正确的轨迹。这表明过度思考与模型能力或训练偏差存在更深层的关联。

为了改善这一问题，需要精确识别哪些自我反思环节能够真正帮助提升答案质量，哪些环节反而会带来负面影响。但获取这些 step-level 级别的标注成本高昂，缺乏有效的标注机制成为限制模型优化的关键瓶颈。

核心内容

研究团队观察到推理轨迹中的一个重要特性：中间答案承诺（intermediate answer commitments）。这些承诺为我们提供了一个廉价的代理信号。通过对比轨迹中每个最终答案候选与真实答案（ground truth）之间的关系，可以在不增加任何额外监督的情况下，精准判断后续自我反思是否具有生产力。

基于上述观察，作者提出了一种名为 DASH（Drift Aware advantage SHaping）的创新方法。该方法采用分段级信用分配（segment-level credit assignment）机制，根据每个推理段是否朝着正确方向或偏离正确方向来塑造优势信号。具体而言：

对于轨迹中的每个推理段，DASH 会评估该段后续行为是否会推动最终答案向正确方向发展。
通过这种方式，模型能够学习区分“有帮助的自我反思”与“有害的自我反思”，从而减少无效思考并提升整体推理效率。

在比赛级别数学基准测试中（特别是存在过度思考问题的 AIME25 基准），DASH 展现出卓越的性能：其准确率达到 50.8%，相比 GRPO 基准的 45.4% 提升明显，同时显著降低了过度思考行为，并实现了比 baselines 更高效的自我纠正。

关键要点

过度思考是 Reasoning LLM 的普遍问题，即使控制序列长度，错误轨迹仍呈现更高的无效自我反思率。
中间答案承诺可作为廉价代理，用于无需额外标注即可判断后续反思的生产力。
DASH 提出分段级信用分配策略，按每个推理段是否引导至正确答案进行优势塑造。
DASH 在 AIME25 等高难度数学基准上实现最高准确率（50.8%），同时有效减少无效思考行为并优化自我纠正过程。

意义与影响

DASH 方法为大型推理模型的训练和部署提供了新的范式优化方向。它不仅解决了现有方法在处理过度思考时的效率瓶颈，还为后续研究如何精确控制模型“何时停止思考”提供了理论基础和可落地的技术路径。

通过在资源受限、需要高准确率的场景中（如数学竞赛、复杂逻辑推理）取得突破，DASH 有望推动 Reasoning LLM 向更可靠、更高效的方向发展，减少不必要的计算开销并提升实际应用价值。这项工作为开源社区提供了可复现的代码、数据和实验框架，将促进更多研究者探索更智能、更节制的模型思考机制。

查看原文 →arxiv.org

分段信用分配让推理模型减少过度思考

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐