技术博客arXiv cs.CL·23 小时前

大模型翻译时口头表达的置信度与其内部信号相关性极低

原标题：Speaking in Self-Assessing Tongues: On the Verbalized Confidence of LLMs in Machine Translation

速览

随着大语言模型在机器翻译中的普及，评估其输出置信度的可靠性至关重要。传统基于内部概率的方法往往反映的是对备选方案的确信而非正确性，且需访问内部信号。本研究设计了五种无需内部信号的口头化置信度提取方法，发现其与内部信号相关性极低，但在细粒度错误检测和校准方面，两者表现相当。

随着大型语言模型（LLMs）在机器翻译（Machine Translation, MT）领域的普及度迅速攀升，评估其输出结果的可靠性变得至关重要。在生成式任务中，模型不仅需要提供翻译结果，还需要对其自身的置信度进行量化，以便下游应用或人类用户判断是否采纳该结果。

然而，现有的置信度评估方法存在显著局限。传统的无监督方法通常依赖于模型内部的信号，如预测概率（predicted probabilities）。这种方法存在两个主要缺陷：

误导性：内部概率反映的是模型在备选答案之间的确定性（certainty among alternatives），而非答案的正确性（correctness）。模型可能非常确信一个错误的翻译。
访问限制：许多部署场景下，用户无法直接访问模型的内部隐藏状态或概率分布，导致这些内部信号难以利用。

此外，与许多其他生成任务不同，机器翻译中的错误和置信度可以在不同的粒度级别上进行分析，包括词元（tokens）、单词（words）或片段（spans）。因此，亟需一种无需访问内部信号、且能准确反映翻译正确性的置信度评估方法。

本文提出并评估了五种基于“言语化”（verbalized）的方法来提取 LLM 的逐词元（per-token）置信度，旨在克服传统内部信号方法的局限性，并将其可靠性与模型内部信号进行对比。

研究团队设计了五种言语化方法。这些方法的核心思想是通过提示工程（prompt engineering）或特定的输出格式，让模型以自然语言或显式标记的方式“说出”其对每个翻译单元的信心水平，从而避免了对内部概率分布的依赖。

为了衡量这些方法的可靠性，研究采用了两种形式的“对齐度”评估指标：

细粒度错误检测（Fine-grained error detection）：评估置信度分数是否能准确定位具体的翻译错误位置。
校准度（Calibration）：评估模型的置信度分数与其实际准确率之间的一致性。例如，如果模型声称某处翻译有 90% 的把握，那么在实际统计中，该处的准确率应接近 90%。

性能对比：在细粒度错误检测和校准度两个维度上，言语化方法与内部信号方法的性能表现相当。这表明，即使不访问内部概率，言语化方法也能提供具有参考价值的置信度估计。
模型差异性：不同模型的表现存在差异，说明该方法的有效性部分取决于底层模型的能力。
低相关性发现：一个令人惊讶的发现是，内部信号方法与言语化方法之间几乎不存在相关性（little to no correlation）。这意味着内部概率所反映的“确定性”与言语化输出所反映的“自我评估信心”捕捉了模型行为的不同侧面。

这项研究对大语言模型在机器翻译及更广泛的生成式应用中的部署具有重要意义：

提升可解释性与信任度：通过提供无需内部访问的置信度估计，开发者可以为用户提供更透明的质量反馈。用户可以根据言语化的置信度标记，重点关注模型不确定的部分，从而提高人机协作的效率。
优化后处理流程：在自动翻译系统中，置信度分数可用于过滤低质量结果或触发人工审核。由于言语化方法与内部信号性能相当，对于无法获取内部概率的黑盒模型（如通过 API 调用的模型），研究人员和工程师可以采用言语化方法作为有效的替代方案。
深化对模型行为的理解：发现内部信号与言语化置信度之间的低相关性，提示我们模型内部的“确定性”计算与外部的“自我报告”信心可能基于不同的机制。这为未来研究如何更好地校准 LLM 的自我评估提供了新的视角。
推动细粒度质量控制：研究强调了在 token 级别进行置信度评估的重要性，这有助于更精准地定位翻译错误，为开发更精细的质量估计（Quality Estimation, QE）工具奠定基础。

总之，该研究证实了言语化方法作为一种无需内部访问的置信度评估手段的可行性与有效性，为构建更可靠、更透明的 LLM 翻译系统提供了新的技术路径。