← 返回信息流
技术博客arXiv cs.AI·7 天前

提问还不够:大语言模型置信度校准中的协议敏感性

原标题:Asking Is Not Enough: Protocol Sensitivity in LLM Confidence Calibration

速览

该研究指出,大语言模型的置信度校准评估常因测量选择未明确而存在偏差。通过改变答案字符串、概率读取方式及条件上下文,发现校准结果对这些协议选择高度敏感。研究强调应将置信度信号视为协议依赖的行为测量,并提出了包含提取来源、评分答案等维度的报告清单。

AI 深度解读

提问还不够:大语言模型置信度校准中的协议敏感性

背景

在大语言模型(LLM)的应用中,模型输出的“置信度”(Confidence)是衡量其可靠性、进行错误检测以及构建安全护栏的关键指标。目前,评估 LLM 置信度校准(Confidence Calibration)质量的主流方法通常涉及比较两种信号:

  1. Token 概率分数(Token-probability scores):模型在生成文本时,基于其内部概率分布计算出的数值。
  2. 言语化置信度(Verbalized confidence):通过提示词(Prompt)让模型直接输出对答案确定性的自然语言描述(如“我非常确定”或“置信度为 90%”)。

这两种信号常被视为模型不确定性的直接读数。然而,现有的评估往往忽略了测量过程中的具体选择。不同的提示模板、概率刻度、输出格式以及计算方式,都可能极大地影响最终得到的校准结果。如果这些“测量轴”(measurement axes)不明确,不同研究之间的比较将缺乏公平性和可重复性。

核心内容

这篇发表于 arXiv 的研究(提交于 2026 年 5 月 26 日)深入探讨了在比较“言语化置信度”与“Token 概率”时,实验协议(Protocol)的敏感性。研究指出,许多关于 LLM 校准性能的结论可能并非模型本身的固有属性,而是由特定的测量设置决定的。

1. 研究设计与变量控制

为了揭示这种敏感性,研究团队在主要分析中固定了言语化置信度的提取方式(使用单一的提示模板、概率尺度和输出格式),然后系统地变化定义“言语化 vs. Token”比较的测量轴。这些变量包括:

  • 计分答案的选择:哪个答案字符串被用于计算 Token 概率分数?是模型生成的答案,还是外部提供的标准答案?
  • Token 分数的读取方式:如何从答案的 Token 中提取概率分数?
  • 条件上下文(Conditioning Context):在测量 Token 概率时,模型是在何种上下文中进行计算的?

2. 实验设置

研究在四个问答(QA)基准测试上进行了评估,涉及三个开源的 7--8B 参数量的 Base/Instruct 模型家族。此外,还使用了更大规模的 Qwen2.5 变体作为同家族鲁棒性检查,以验证结论的普遍性。

3. 主要发现:协议对结果的显著影响

研究结果显示,比较结果对测量选择高度敏感:

  • 条件上下文改变显著:改变条件上下文可以改变预期校准误差(ECE)差距的符号(sign)或幅度(magnitude)。这意味着,在某些设置下,言语化置信度可能比 Token 概率表现更好,而在另一些设置下则相反。
  • Token 读取方式的影响:改变 Token 分数的读取方式也会产生变化,虽然幅度较小,但足以改变 ECE 差距的符号。
  • ECE 估计器的影响:改变 ECE(Expected Calibration Error)估计器本身对结果影响不大,说明问题主要出在信号提取而非误差计算上。

4. 默认协议下的校准表现

在默认的“生成答案”(generated-answer)和“裸上下文”(bare-context)协议下,研究发现在 Instruct(指令微调)模型中,言语化置信度与 Token 概率之间接近“持平”(parity)。这反驳了以往认为言语化置信度能带来巨大校准增益的观点。

5. 言语化置信度的本质:不仅是正确性

在单独的“提供答案”(supplied-answer)分析中,研究揭示了一个关键现象:表面看似合理但错误的“干扰答案”(surface-plausible wrong answers),其获得的言语化置信度几乎与提供的“黄金答案”(gold answers,即正确答案)相同。

这一发现表明,言语化置信度不仅反映答案的正确性,还反映了答案的合理性和来源(provenance)。模型可能因为答案看起来“像真的”或符合其训练数据的分布模式而给出高置信度,即使答案是错误的。

6. 建议:将置信度视为协议依赖的行为测量

作者主张,不应将这两种置信度信号视为模型不确定性的绝对真理,而应将其视为协议依赖的行为测量(protocol-dependent behavioral measurements)。为此,研究提供了一份报告清单(reporting checklist),要求在未来的研究中明确披露以下信息:

  • 提取来源(Elicitation provenance):如何获取言语化置信度。
  • 计分答案(Scored answer):使用哪个答案进行 Token 概率计算。
  • Token 概率读取方式(Token-probability readout):具体的计算细节。
  • 条件上下文(Conditioning context):测量时的上下文设置。

关键要点

  • 测量选择决定结论:LLM 置信度校准的比较结果高度依赖于实验协议(如上下文、答案选择、读取方式)。不同的设置可能导致完全相反的校准性能结论。
  • 言语化置信度并非完美:在默认协议下,指令微调模型中言语化置信度并未显示出相对于 Token 概率的巨大优势,两者表现接近持平。
  • 置信度反映“合理性”而非仅“正确性”:言语化置信度会受到答案表面合理性和来源的影响。模型可能对看似合理但错误的答案给出高置信度,这表明该信号捕捉的是答案的“可信度外观”而非纯粹的逻辑正确性。
  • 缺乏标准化导致不可比:由于缺乏统一的测量标准,不同研究间关于 LLM 校准能力的比较可能无效。
  • 需要透明的报告清单:为了科学严谨性,未来研究必须明确报告置信度提取、计分答案、Token 读取方式和条件上下文等关键实验细节。

意义与影响

这项研究对 LLM 的可解释性、可靠性评估以及实际应用具有深远影响:

  1. 重新审视 LLM 可靠性指标:研究人员和工程师不能盲目信任单一的置信度指标。无论是使用内部 Token 概率还是外部言语化置信度,都必须意识到这些指标是特定协议下的产物,而非模型不确定性的绝对客观度量。
  2. 改进安全护栏与错误检测:由于言语化置信度可能受到答案“表面合理性”的误导,仅依靠高置信度来过滤错误答案可能不够有效。在实际应用中(如医疗、法律问答),需要结合其他验证机制,不能仅依赖模型自我报告的置信度。
  3. 推动标准化评估框架:该研究呼吁建立标准化的置信度评估协议。这对于基准测试(Benchmarking)至关重要,只有在使用相同协议的情况下,不同模型之间的校准性能比较才有意义。
  4. 深化对模型行为的理解:研究揭示了 LLM 在生成置信度判断时,不仅依赖逻辑推理,还受到训练数据分布和答案形式特征的影响。这为后续改进模型校准技术(如通过更多样化的提示工程或后处理技术)提供了方向。

总之,这篇论文提醒我们,“提问”本身不足以获得可靠的置信度评估。必须精心设计并透明报告测量协议,才能真正理解并利用 LLM 的置信度信号。

查看原文 →arxiv.org