技术博客arXiv cs.CL·3 小时前

推理预算增加致大模型过度自信，校准漂移现象被揭示

原标题：Calibration Drift Under Reasoning: How Chain-of-Thought Budgets Induce Overconfidence in Large Language Models

速览

论文揭示了大模型在增加推理预算后出现的“推理下校准漂移”现象，即模型对错误答案分配高置信度。研究提出假设锁定模型解释该行为，并引入CABStop停止规则以缓解此问题。这表明增加推理深度并不总能提升可靠性，需小心监控。

AI 深度解读

推理下的校准漂移：思维链预算如何诱导大语言模型过度自信

背景

大语言模型（LLMs）在安全部署中的关键能力之一，是能够表达校准良好的不确定性（calibrated uncertainty）。这意味着模型输出的置信度应与其回答的正确率相匹配：如果模型声称有 90% 的把握，那么在类似任务中它确实应该大约 90% 的时间是正确的。

目前，思维链（Chain-of-Thought, CoT）推理被广泛用于提升模型的准确性和可靠性。通过让模型展示中间推理步骤，通常能显著改善其在复杂逻辑、数学和常识推理任务上的表现。然而，关于 CoT 对模型校准性（calibration）的具体影响，学术界尚未形成完整的理解。现有的研究多关注准确率提升，而忽视了推理过程本身可能引入的置信度偏差。

核心内容

本文通过理论分析与实证研究，揭示了在特定设置下，增加推理预算（即思维链的长度或步骤数）可能导致模型出现系统性的过度自信（overconfidence）现象。作者将这一现象命名为推理下的校准漂移（Calibration Drift Under Reasoning, CDUR）。

1. 推理预算与非单调校准误差

研究定义了“推理预算” $B$，并分析了期望校准误差 $ECE(B)$ 随预算变化的模式。研究发现，$ECE(B)$ 并非单调递减，而是呈现非单调（non-monotonic）特征：

初期下降：随着推理步骤的增加，模型通过自我修正纠正了部分错误，校准误差随之降低。
后期上升：当推理长度超过特定任务的阈值后，更长的推理过程反而会导致模型生成内部一致但逻辑错误的解释。此时，模型对这些错误答案赋予了极高的置信度，导致校准误差重新上升。

2. 假设锁定模型（Hypothesis Lock-In）

为了解释这一行为，作者提出了基于自回归生成机制的假设锁定模型。该模型认为，LLM 在生成早期推理步骤时，可能会过早地确立一个假设。随着自回归生成的推进，后续步骤倾向于维持这一假设的一致性，即使该假设本身是错误的。这种“锁定”效应使得模型难以在长推理链中自我纠错，反而强化了错误结论的置信度。

3. 实证评估

研究在 Llama-3.1-8B 和 Llama-3.3-70B 模型上进行了评估，使用了涵盖四种推理预算和三个随机种子（共 1,368 次 API 调用，574 个有效响应）的 47 道“推理陷阱”问题。

8B 模型结果：清晰地展示了非单调的校准行为，验证了 CDUR 现象的存在。
70B 模型结果：由于资源限制，仅进行了基线评估，关于预算依赖效应的结论尚不明确，但暗示更大模型可能具有不同的行为模式或需要更复杂的分析。

4. 解决方案：CABStop

针对这一问题，作者引入了 CABStop，一种感知校准的停止规则（calibration-aware stopping rule）。该机制通过监控模型置信度与辅助准确性估计值之间的偏差来决定何时停止推理。当置信度开始偏离辅助估计的准确性时，立即终止推理过程，从而避免进入过度自信的陷阱。

关键要点

CDUR 现象：增加推理预算并不总是提高可靠性。超过特定阈值后，更长的思维链会导致模型对错误答案产生系统性的高置信度。
非单调校准：期望校准误差（ECE）随推理预算的变化呈“U型”或先降后升的非单调模式，而非简单的线性改善。
内在一致性陷阱：长推理链容易生成逻辑自洽但事实错误的解释，模型因“自圆其说”而过度自信。
模型规模差异：小参数模型（如 Llama-3.1-8B）表现出明显的 CDUR 效应，而大参数模型（如 Llama-3.3-70B）在当前实验设置下结论有限，需进一步研究。
动态停止策略：CABStop 提供了一种有效的缓解手段，通过实时监测置信度与准确性估计的偏差来动态终止推理，防止过度自信。

意义与影响

这项研究对大语言模型的安全部署和推理优化具有重要启示：

重新评估推理成本：在追求更高准确率的同时，必须警惕推理深度带来的校准风险。盲目增加思维链长度可能导致模型在错误答案上“越陷越深”，反而降低系统的可信度。
监控机制的必要性：在关键应用（如医疗、金融、法律）中，不能仅依赖最终答案的置信度分数。需要引入类似 CABStop 的动态监控机制，实时评估推理过程中的置信度漂移。
模型训练与对齐：未来的模型训练可能需要专门针对“校准漂移”进行优化，例如通过强化学习奖励机制，鼓励模型在发现推理矛盾时主动降低置信度或停止推理，而非强行维持逻辑一致性。
基准测试的完善：现有的模型评估基准多关注最终答案的正确性，未来应纳入对推理过程校准性的评估，特别是针对长推理链场景下的置信度准确性测试。

总之，本文指出“更多推理”不等于“更可靠推理”。在利用 CoT 提升 LLM 性能的同时，必须建立对推理预算和置信度漂移的精细管控机制。

查看原文 →arxiv.org