技术博客arXiv cs.CL·7 天前

模型知道为何改变主意吗？知识冲突下思维链的可解释性与忠实度

原标题：Do Models Know Why They Changed Their Mind? Interpretability and Faithfulness of Chain-of-Thought Under Knowledge Conflict

速览

该研究探讨了语言模型在面临训练知识与文档矛盾时的思维链（CoT）推理忠实度。实验发现CoT推理在相反决策间保持高度稳定，但自我评估的置信度携带微弱且真实的预测信号。研究指出GPT-4o具有可靠的推理-决策耦合，建议通过监控置信度而非论证内容来评估模型。

AI 深度解读

模型是否知道它为何改变主意？知识冲突下思维链的可解释性与忠实度研究

背景

大型语言模型（LLMs）在训练过程中吸收了大量事实性知识。然而，当模型在推理过程中遇到与其预训练知识相矛盾的外部文档或提示时，它面临着一个核心抉择：是遵循文档中的新信息，还是坚持其内部固有的“记忆”？

既往研究已经证明，模型最终做出的选择（跟随文档还是信任自身）主要取决于该事实的“知名程度”（fact fame）——即该事实在训练数据中出现的频率和显著性。如果事实非常知名，模型倾向于忽略外部矛盾信息；反之，若事实较为生僻，模型则更可能接受外部信息。

然而，一个关键且未被充分回答的问题是：模型生成的**思维链（Chain-of-Thought, CoT）**推理过程，是否忠实地报告了这一内在机制？换句话说，当模型改变主意时，它“想”的理由是否真实反映了它做出决策的心理过程？本研究旨在通过引入“内省忠实度”（introspective faithfulness）这一概念，深入探究模型在知识冲突场景下的推理透明度。

核心内容

本研究通过系统性实验，测试了8个主流模型在200个问题、4种提示条件下的表现，以评估思维链在知识冲突下的可解释性与忠实度。

1. 思维链的高度稳定性与“虚假一致性”

研究发现，无论模型最终做出何种决定（跟随文档或坚持己见），其生成的思维链推理内容表现出极高的稳定性。具体而言，在“翻转对”（flip pairs，即同一问题在不同条件下导致不同答案的情况）中，模型保留了高达 96% 的相同答案相似度（Cohen's d=0.34；ROUGE-L指标确认 d=0.45）。

这意味着，即使模型最终的答案发生了反转，其生成的推理文本在表面上看起来几乎一模一样。这种高度的稳定性表明，CoT 中的大部分内容仅仅是与决策无关的知识展示（decision-invariant knowledge display），而非真正的决策依据。

2. 自信度评分中的微弱真实信号

尽管推理文本本身缺乏区分度，但模型自我报告的**自信度（confidence）**却携带了微弱的真实信号。

在实体知名度无法提供有效信息的生僻事实场景中，自信度仍能显著预测模型的决策（p<0.001）。
自信度与项目级别的知识水平存在正相关（r=0.134）。

这表明，虽然模型“说”出来的理由（CoT）可能是通用的或模板化的，但其“感觉”（自信度）在一定程度上反映了其对自身知识的把握程度。

3. 模型间的差异：GPT-4o 与 Claude Sonnet 4.6

GPT-4o：是唯一一个在推理与决策耦合上具有统计可靠性的模型。这意味着 GPT-4o 的推理过程与其最终选择之间存在更紧密的逻辑联系。
Claude Sonnet 4.6：表现出最宽的自信度范围（标准差 SD=1.39），但其聚合相关性接近于零。进一步分析发现，这是因为自信度与决策之间的关系在不同提示条件下发生了反转。通过温度（temperature）消融实验确认，这种现象是模型特有的，而非通用规律。

4. 内部思考令牌 vs. 用户可见 CoT

研究还对比了模型内部生成的思考令牌（internal thinking tokens，通常不可见）与用户可见的思维链。结果显示，内部思考令牌对决策的敏感度显著高于用户可见的 CoT（p=0.033）。这暗示模型内部的真实推理过程比其对外展示的推理更为复杂和敏感。

5. CoT 的结构分解

研究将 CoT 分解为两个部分：

决策无关的知识展示：占比约 96%，内容稳定，不随决策改变。
薄层的自信层：包含微弱但真实的信号，主要体现为自信度评分。

关键要点

推理文本的误导性：模型生成的思维链（CoT）在知识冲突下具有极高的稳定性，即使答案反转，推理文本相似度仍高达 96%。因此，仅凭阅读推理文本无法判断模型为何改变主意。
自信度是关键指标：在生僻事实场景中，模型的自我自信度比推理文本更能预测其最终决策。自信度携带了关于模型内部知识状态的微弱但真实的信号。
模型能力差异显著：
- GPT-4o 是目前唯一表现出统计上可靠的“推理-决策”耦合关系的模型，其推理过程与决策逻辑一致性最高。
- Claude Sonnet 4.6 虽然自信度波动大，但其自信度与决策的关系不稳定，受提示条件影响出现反转。
内部推理优于外部展示：模型内部的思考令牌（internal thinking tokens）比用户可见的 CoT 更能敏感地反映决策变化，说明对外展示的推理可能经过某种形式的“简化”或“标准化”。
监控建议：对于模型行为的监控和调试，应重点关注自信度评分，而非仅仅分析其生成的推理论点（argument）。

意义与影响

这项研究对大语言模型的可解释性（Interpretability）和忠实度（Faithfulness）评估提出了重要修正。长期以来，研究者倾向于通过分析思维链（CoT）来理解模型的决策逻辑，但本研究表明，在知识冲突场景下，CoT 可能只是一个“事后合理化”的工具，其内容高度模板化，无法真实反映决策机制。

对 AI 安全与对齐的启示：

警惕表面合理性：开发者不能假设模型生成的推理文本是其决策的真实原因。高相似度的推理文本可能掩盖了决策机制的脆弱性或随机性。
监控自信度校准：自信度评分是比推理文本更可靠的内部状态指示器。优化模型的自信度校准（Calibration）可能比优化推理文本的生成质量更能提升模型的可控性。
模型选择标准：在需要高可解释性和决策一致性的应用场景中，GPT-4o 等表现出强推理-决策耦合的模型可能更具优势。而像 Claude Sonnet 4.6 这样自信度与决策关系不稳定的模型，需要更谨慎的提示工程或后处理策略。

未来研究方向： 研究指出内部思考令牌与用户可见 CoT 之间的差距，暗示未来可探索通过访问或蒸馏内部状态来提升模型的可解释性。此外，如何消除提示条件对自信度-决策关系的干扰，也是提升模型忠实度的重要方向。

查看原文 →arxiv.org