← 返回信息流
技术博客arXiv cs.CL·1 天前

分段信用分配让推理模型减少过度思考

原标题:Know When to Stop: Segment-Level Credit Assignment for Reducing Overthinking

速览

大语言模型推理常过度思考,产生无益的自我反思链条。研究发现,即使控制长度,错误轨迹的反思次数仍更高。DASH通过分段信用分配,基于是否每个推理段指向或偏离正确答案来优化训练。实验在数学基准上显著提升性能并减少无用行为,具有重要工程意义。

AI 深度解读

背景

大型语言模型(LLM)在处理复杂推理任务时表现出“过度思考”的现象。特别是 Reasoning language models 在生成答案时,会产生冗长的行为链条,如自我犹豫(hedging)、放弃策略(approach abandonment)和自我矛盾(self-contradiction)。这些行为虽然延长了输出序列,但并未真正提升最终答案的质量,反而消耗了大量 token 资源。

现有研究指出,这些过度思考行为并非单纯由序列长度驱动。即使在严格控制响应长度的条件下,错误的推理轨迹(incorrect traces)中,无效自我反思的比例仍然显著高于正确的轨迹。这表明过度思考与模型能力或训练偏差存在更深层的关联。

为了改善这一问题,需要精确识别哪些自我反思环节能够真正帮助提升答案质量,哪些环节反而会带来负面影响。但获取这些 step-level 级别的标注成本高昂,缺乏有效的标注机制成为限制模型优化的关键瓶颈。

核心内容

研究团队观察到推理轨迹中的一个重要特性:中间答案承诺(intermediate answer commitments)。这些承诺为我们提供了一个廉价的代理信号。通过对比轨迹中每个最终答案候选与真实答案(ground truth)之间的关系,可以在不增加任何额外监督的情况下,精准判断后续自我反思是否具有生产力。

基于上述观察,作者提出了一种名为 DASH(Drift Aware advantage SHaping)的创新方法。该方法采用分段级信用分配(segment-level credit assignment)机制,根据每个推理段是否朝着正确方向或偏离正确方向来塑造优势信号。具体而言:

  • 对于轨迹中的每个推理段,DASH 会评估该段后续行为是否会推动最终答案向正确方向发展。
  • 通过这种方式,模型能够学习区分“有帮助的自我反思”与“有害的自我反思”,从而减少无效思考并提升整体推理效率。

在比赛级别数学基准测试中(特别是存在过度思考问题的 AIME25 基准),DASH 展现出卓越的性能:其准确率达到 50.8%,相比 GRPO 基准的 45.4% 提升明显,同时显著降低了过度思考行为,并实现了比 baselines 更高效的自我纠正。

关键要点

  • 过度思考是 Reasoning LLM 的普遍问题,即使控制序列长度,错误轨迹仍呈现更高的无效自我反思率。
  • 中间答案承诺可作为廉价代理,用于无需额外标注即可判断后续反思的生产力。
  • DASH 提出分段级信用分配策略,按每个推理段是否引导至正确答案进行优势塑造。
  • DASH 在 AIME25 等高难度数学基准上实现最高准确率(50.8%),同时有效减少无效思考行为并优化自我纠正过程。

意义与影响

DASH 方法为大型推理模型的训练和部署提供了新的范式优化方向。它不仅解决了现有方法在处理过度思考时的效率瓶颈,还为后续研究如何精确控制模型“何时停止思考”提供了理论基础和可落地的技术路径。

通过在资源受限、需要高准确率的场景中(如数学竞赛、复杂逻辑推理)取得突破,DASH 有望推动 Reasoning LLM 向更可靠、更高效的方向发展,减少不必要的计算开销并提升实际应用价值。这项工作为开源社区提供了可复现的代码、数据和实验框架,将促进更多研究者探索更智能、更节制的模型思考机制。

查看原文 →arxiv.org