技术博客arXiv cs.AI·7 小时前

大语言模型黑盒不确定性评估：24种方法系统评测

原标题：A Systematic Evaluation of Black-Box Uncertainty Estimation Methods for Large Language Models

速览

针对大语言模型输出不可靠的问题，研究对24种主流黑盒不确定性估计方法进行了系统评估。结果发现没有单一方法在所有场景下均占优，但基于答案空间推理及混合信号的方法表现较好。该研究提供了统一评估框架，为开发更可靠的大模型不确定性估计方法提供了实践指导。

AI 深度解读

大语言模型黑盒不确定性估计方法的系统评估

背景

尽管大语言模型（LLMs）在广泛的任务中展现出了强大的能力，但其输出往往存在不可靠性，甚至包含幻觉（hallucinations）。因此，不确定性估计（Uncertainty Estimation, UE）对于构建值得信赖的 LLM 至关重要。

在实际应用场景中，许多主流 LLM 仅通过受限的 API 接口提供访问，用户无法获取内部信号（如 logits 和隐藏状态）。这种限制使得“黑盒”不确定性估计方法变得尤为关键。然而，现有的针对 LLM 的黑盒 UE 研究在方法论上较为分散，缺乏统一的实证比较。为了填补这一空白，本文对黑盒 UE 方法进行了系统性的回顾与评估。

核心内容

本研究旨在解决现有黑盒不确定性估计方法缺乏统一基准的问题。作者首先对现有的黑盒 UE 方法进行了分类整理，随后构建了一个统一的评估框架，并在多个模型和数据集设置下对代表性方法进行了基准测试。

1. 黑盒不确定性估计方法的五大分类

文章将现有的黑盒 UE 方法归纳为以下五类：

基于言语化的方法 (Verbalization-based)：通过让模型输出表示置信度的文本标签（如“肯定”、“可能”、“否定”）来估计不确定性。
基于采样的方法 (Sampling-based)：通过对同一输入进行多次采样，分析输出分布的方差或一致性来评估不确定性。
基于解释的方法 (Explanation-based)：要求模型生成推理过程或解释，通过分析解释的质量、连贯性或逻辑一致性来推断答案的不确定性。
多智能体方法 (Multi-agent)：利用多个独立的 LLM 实例或代理对同一问题进行回答，通过比较不同代理之间的一致性来评估不确定性。
混合方法 (Hybrid methods)：结合上述两种或多种信号（例如结合采样一致性与言语化置信度）以提供更鲁棒的不确定性估计。

2. 统一的评估框架与基准测试

为了公平比较不同方法，研究团队构建了一个统一的评估框架，并选取了 24 种具有代表性的黑盒 UE 方法进行了基准测试。测试范围包括：

4 个主流 LLM 模型
4 种不同的数据集设置

3. 主要研究发现

通过对大量实验数据的分析，研究得出了以下核心结论：

没有单一的主导方法：没有任何一种方法在所有设置下都能 consistently（一致地）优于其他方法。性能高度依赖于具体的模型、任务类型和数据分布。
答案空间推理方法的有效性：那些在答案空间中对候选答案进行推理和比较的方法（如多智能体比较、基于采样的分布分析）通常表现良好。
混合方法的优势：结合多种不确定性信号（如同时利用采样一致性和言语化置信度）的混合方法，在大多数条件下都能取得较好的性能。

关键要点

黑盒 UE 的必要性：由于 API 访问限制导致内部状态不可见，黑盒 UE 是实际部署中评估 LLM 可靠性的关键手段。
方法论碎片化：现有研究缺乏系统性对比，导致难以判断哪种方法在特定场景下最优。
分类体系：确立了基于言语化、采样、解释、多智能体和混合方法这五大主流技术路线。
实证基准：建立了包含 24 种方法、4 个模型和 4 种数据集设置的统一基准，填补了领域内的评估空白。
性能结论：
- 不存在“万能”的最佳方法。
- 在答案空间中进行推理和比较的策略普遍有效。
- 融合多源信号的混合方法具有更强的鲁棒性。
开源贡献：研究团队公开了基准数据和统一评估框架，旨在促进可重复性比较并支持未来研究。

意义与影响

这项研究对 LLM 的应用落地和后续学术研究具有重要的指导意义：

提供实践指南：对于开发者而言，研究结果提供了选择不确定性估计方法的实证依据。例如，在资源允许的情况下，采用混合方法或在答案空间中进行多候选比较，可能比单一方法更可靠。
促进可重复性研究：通过发布统一的评估框架和基准数据，降低了后续研究者进行公平比较的门槛，有助于消除因评估标准不一导致的结论冲突。
指引未来方向：研究指出单一方法的局限性，暗示未来黑盒 UE 方法的发展应倾向于多信号融合及更精细的答案空间推理机制，而非依赖单一启发式规则。
增强系统可信度：通过系统性地梳理和优化不确定性估计，有助于构建更具鲁棒性和可解释性的 LLM 应用系统，从而缓解幻觉问题，提升用户在关键任务（如医疗、法律、金融）中对 AI 输出的信任度。

查看原文 →arxiv.org