技术博客arXiv cs.AI·6 天前

诊断答案正确长思维链训练轨迹中的有害延续

原标题：Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

速览

本文研究长思维链（CoT）数据中，即使答案已正确，后续仍存在的冗余推理对模型微调的影响。通过删除这些“有害延续”，观察到监督微调（SFT）效果显著提升。研究进一步分析了其不确定性特征，并提出轻量级的HCC边界代理方法以近似识别该边界。

在基于推理的大语言模型（LLM）监督微调（SFT）中，长思维链（Long Chain-of-Thought, Long-CoT）轨迹被广泛用作监督信号。然而，研究人员发现，即使训练数据中的思维链轨迹在最终答案上是正确的（Answer-Correct），其微调效果仍可能存在显著差异。

这种现象引发了一个核心问题：在答案已经得到充分支持之后，为什么思维链还要继续延伸？如果这些延伸部分包含额外的推理步骤，且这些步骤也被作为监督目标（Supervised Target）纳入训练，它们会对模型的学习产生何种影响？

本文旨在诊断并量化一种被称为“有害延续”（Harmful Continuation）的现象。具体而言，我们关注的是在答案出现后，数据中仍然存在的后续推理内容。尽管这些内容在逻辑上可能看似合理，但实证研究表明，它们对训练过程具有负面影响。

作者将“有害延续”定义为：在思维链轨迹中，当答案已经出现并得到充分支持后，轨迹继续延伸出的额外推理部分。这部分内容依然被包含在监督目标中，参与模型的训练。

为了验证有害延续对训练的影响，作者设计了一种基于“删除”的干预实验：

构建处理后的轨迹：使用一个“仅删除编辑器”（delete-only editor），识别并移除答案正确轨迹中的“结论后延续”（post-conclusion continuation）。
对比实验：分别使用原始轨迹和处理后的轨迹（即移除了有害延续的轨迹）进行基于 CoT 的监督微调（SFT）。
评估指标：比较两种微调方式下的模型性能。

实验结果显示，在移除由编辑器识别出的结论后延续部分后，SFT 的效果得到了改善。这一结果证实了在该实验设置下，这些额外的延续内容对训练是有害的。作者将这一经验上得到支持的现象命名为“有害延续”。

除了进行干预实验，作者还通过“不确定性”（Uncertainty）和“隐藏状态进展”（Hidden-State Progress）两个维度，对移除的结论后延续进行了特征刻画：

这种“局部不确定性持续”与“终端方向进展减弱”的组合，形成了一种不确定性-几何失配（Uncertainty-Geometry Mismatch）。这暗示了模型在答案正确后，仍在进行低效或噪声较大的推理探索，而非收敛。

为了在实际应用中高效识别并移除有害延续，作者提出了 Harmful Continuation Cut (HCC)。

这项研究对基于推理的大语言模型训练具有重要的指导意义：

优化训练数据质量：传统观点认为，只要答案正确且推理过程完整，数据就是高质量的。本文指出，“完整性”可能包含噪声。在答案明确后，强行延长推理链条可能引入有害信号。这提示数据工程师在清洗和构建 CoT 数据时，应更精细地界定“有效推理”的边界。
提升微调效率与效果：通过引入 HCC 等轻量级工具，可以更高效地预处理训练数据，去除冗余和有害部分，从而在相同计算资源下获得更好的模型性能，或减少训练所需的样本量。
深化对模型内部状态的理解：通过“不确定性-几何失配”这一概念，研究揭示了模型在推理后期的内部动态。这为理解 LLM 在生成过程中的置信度变化、推理收敛性提供了新的分析视角，有助于未来设计更智能的推理控制机制。
推动长思维链技术的精细化：随着长思维链在复杂推理任务中的应用日益广泛，如何有效管理其长度和质量成为关键挑战。本文的工作为平衡“推理深度”与“训练噪声”提供了实证依据和技术手段，有助于推动更稳健、高效的推理模型发展。