技术博客arXiv cs.AI·7 天前

提问还不够：大语言模型置信度校准中的协议敏感性

原标题：Asking Is Not Enough: Protocol Sensitivity in LLM Confidence Calibration

速览

该研究指出，大语言模型的置信度校准评估常因测量选择未明确而存在偏差。通过改变答案字符串、概率读取方式及条件上下文，发现校准结果对这些协议选择高度敏感。研究强调应将置信度信号视为协议依赖的行为测量，并提出了包含提取来源、评分答案等维度的报告清单。

AI 深度解读

提问还不够：大语言模型置信度校准中的协议敏感性

背景

在大语言模型（LLM）的应用中，模型输出的“置信度”（Confidence）是衡量其可靠性、进行错误检测以及构建安全护栏的关键指标。目前，评估 LLM 置信度校准（Confidence Calibration）质量的主流方法通常涉及比较两种信号：

Token 概率分数（Token-probability scores）：模型在生成文本时，基于其内部概率分布计算出的数值。
言语化置信度（Verbalized confidence）：通过提示词（Prompt）让模型直接输出对答案确定性的自然语言描述（如“我非常确定”或“置信度为 90%”）。

这两种信号常被视为模型不确定性的直接读数。然而，现有的评估往往忽略了测量过程中的具体选择。不同的提示模板、概率刻度、输出格式以及计算方式，都可能极大地影响最终得到的校准结果。如果这些“测量轴”（measurement axes）不明确，不同研究之间的比较将缺乏公平性和可重复性。

核心内容

这篇发表于 arXiv 的研究（提交于 2026 年 5 月 26 日）深入探讨了在比较“言语化置信度”与“Token 概率”时，实验协议（Protocol）的敏感性。研究指出，许多关于 LLM 校准性能的结论可能并非模型本身的固有属性，而是由特定的测量设置决定的。

1. 研究设计与变量控制

为了揭示这种敏感性，研究团队在主要分析中固定了言语化置信度的提取方式（使用单一的提示模板、概率尺度和输出格式），然后系统地变化定义“言语化 vs. Token”比较的测量轴。这些变量包括：

计分答案的选择：哪个答案字符串被用于计算 Token 概率分数？是模型生成的答案，还是外部提供的标准答案？
Token 分数的读取方式：如何从答案的 Token 中提取概率分数？
条件上下文（Conditioning Context）：在测量 Token 概率时，模型是在何种上下文中进行计算的？

2. 实验设置

研究在四个问答（QA）基准测试上进行了评估，涉及三个开源的 7--8B 参数量的 Base/Instruct 模型家族。此外，还使用了更大规模的 Qwen2.5 变体作为同家族鲁棒性检查，以验证结论的普遍性。

3. 主要发现：协议对结果的显著影响

研究结果显示，比较结果对测量选择高度敏感：

条件上下文改变显著：改变条件上下文可以改变预期校准误差（ECE）差距的符号（sign）或幅度（magnitude）。这意味着，在某些设置下，言语化置信度可能比 Token 概率表现更好，而在另一些设置下则相反。
Token 读取方式的影响：改变 Token 分数的读取方式也会产生变化，虽然幅度较小，但足以改变 ECE 差距的符号。
ECE 估计器的影响：改变 ECE（Expected Calibration Error）估计器本身对结果影响不大，说明问题主要出在信号提取而非误差计算上。

4. 默认协议下的校准表现

在默认的“生成答案”（generated-answer）和“裸上下文”（bare-context）协议下，研究发现在 Instruct（指令微调）模型中，言语化置信度与 Token 概率之间接近“持平”（parity）。这反驳了以往认为言语化置信度能带来巨大校准增益的观点。

5. 言语化置信度的本质：不仅是正确性

在单独的“提供答案”（supplied-answer）分析中，研究揭示了一个关键现象：表面看似合理但错误的“干扰答案”（surface-plausible wrong answers），其获得的言语化置信度几乎与提供的“黄金答案”（gold answers，即正确答案）相同。

这一发现表明，言语化置信度不仅反映答案的正确性，还反映了答案的合理性和来源（provenance）。模型可能因为答案看起来“像真的”或符合其训练数据的分布模式而给出高置信度，即使答案是错误的。

6. 建议：将置信度视为协议依赖的行为测量

作者主张，不应将这两种置信度信号视为模型不确定性的绝对真理，而应将其视为协议依赖的行为测量（protocol-dependent behavioral measurements）。为此，研究提供了一份报告清单（reporting checklist），要求在未来的研究中明确披露以下信息：

提取来源（Elicitation provenance）：如何获取言语化置信度。
计分答案（Scored answer）：使用哪个答案进行 Token 概率计算。
Token 概率读取方式（Token-probability readout）：具体的计算细节。
条件上下文（Conditioning context）：测量时的上下文设置。

关键要点

测量选择决定结论：LLM 置信度校准的比较结果高度依赖于实验协议（如上下文、答案选择、读取方式）。不同的设置可能导致完全相反的校准性能结论。
言语化置信度并非完美：在默认协议下，指令微调模型中言语化置信度并未显示出相对于 Token 概率的巨大优势，两者表现接近持平。
置信度反映“合理性”而非仅“正确性”：言语化置信度会受到答案表面合理性和来源的影响。模型可能对看似合理但错误的答案给出高置信度，这表明该信号捕捉的是答案的“可信度外观”而非纯粹的逻辑正确性。
缺乏标准化导致不可比：由于缺乏统一的测量标准，不同研究间关于 LLM 校准能力的比较可能无效。
需要透明的报告清单：为了科学严谨性，未来研究必须明确报告置信度提取、计分答案、Token 读取方式和条件上下文等关键实验细节。

意义与影响

这项研究对 LLM 的可解释性、可靠性评估以及实际应用具有深远影响：

重新审视 LLM 可靠性指标：研究人员和工程师不能盲目信任单一的置信度指标。无论是使用内部 Token 概率还是外部言语化置信度，都必须意识到这些指标是特定协议下的产物，而非模型不确定性的绝对客观度量。
改进安全护栏与错误检测：由于言语化置信度可能受到答案“表面合理性”的误导，仅依靠高置信度来过滤错误答案可能不够有效。在实际应用中（如医疗、法律问答），需要结合其他验证机制，不能仅依赖模型自我报告的置信度。
推动标准化评估框架：该研究呼吁建立标准化的置信度评估协议。这对于基准测试（Benchmarking）至关重要，只有在使用相同协议的情况下，不同模型之间的校准性能比较才有意义。
深化对模型行为的理解：研究揭示了 LLM 在生成置信度判断时，不仅依赖逻辑推理，还受到训练数据分布和答案形式特征的影响。这为后续改进模型校准技术（如通过更多样化的提示工程或后处理技术）提供了方向。

总之，这篇论文提醒我们，“提问”本身不足以获得可靠的置信度评估。必须精心设计并透明报告测量协议，才能真正理解并利用 LLM 的置信度信号。

查看原文 →arxiv.org

提问还不够：大语言模型置信度校准中的协议敏感性

速览

AI 深度解读

提问还不够：大语言模型置信度校准中的协议敏感性

背景

核心内容

1. 研究设计与变量控制

2. 实验设置

3. 主要发现：协议对结果的显著影响

4. 默认协议下的校准表现

5. 言语化置信度的本质：不仅是正确性

6. 建议：将置信度视为协议依赖的行为测量

关键要点

意义与影响

相关推荐