技术博客arXiv cs.CL·2 小时前

BEACON框架：无需内部访问的大模型幻觉检测新方法

原标题：BEACON: Behavioral Entropy Aggregation for Cross-Model Hallucination Detection in Large Language Models

速览

针对大语言模型幻觉问题，研究提出BEACON黑盒检测框架，无需访问模型内部表示或外部知识库。该框架从结构化多轮生成中提取31维特征向量，整合语义熵、嵌入几何等信号。实验显示其AUROC达0.8123，显著优于基线方法，且高效变体适用于API部署。

AI 深度解读

BEACON：基于行为熵聚合的大语言模型跨模型幻觉检测框架

背景

大语言模型（LLMs）在生成事实性错误或缺乏依据的内容时，会产生所谓的“幻觉”（Hallucination）。这一现象已成为阻碍 LLMs 可靠部署的关键瓶颈。尽管现有的幻觉检测方法层出不穷，但许多方法依赖于访问模型的内部表示（如注意力权重或隐藏层状态）或需要外部知识库的支持，这在实际应用中往往受到限制，特别是对于通过 API 访问的黑盒模型而言。因此，开发一种仅依赖模型输出、无需内部访问权限且能跨不同模型架构工作的幻觉检测框架，成为当前自然语言处理领域的重要研究方向。

核心内容

本文提出了一种名为 BEACON（Behavioral Entropy Aggregation for Cross-model hallucination detectiON）的黑盒幻觉检测框架。该框架的核心优势在于其完全基于模型输出进行操作，无需访问内部表示或依赖外部知识库。

1. 多通道生成与特征提取

BEACON 通过结构化的多通道生成（multi-pass generation）过程，从模型输出中提取一个 31 维的特征向量。这一过程并非单一维度的评估，而是整合了多种信号：

基于 NLI 的语义熵（NLI-based semantic entropy）：利用自然语言推理（NLI）模型来量化生成内容的不确定性。
嵌入几何结构（Embedding geometry）：分析生成文本在嵌入空间中的几何分布特征。
思维链一致性（Chain-of-thought consistency）：评估推理步骤之间的逻辑连贯性。
释义稳定性（Paraphrase stability signals）：检测不同表述方式下语义的稳定性。

2. 分类器与性能评估

研究团队使用包含 7,617 个标注样本的数据集对梯度提升分类器（gradient-boosted classifier）进行了训练，评估范围涵盖七个基准测试集。实验结果显示：

BEACON 达到了 0.8123 +/- 0.0102 的 AUROC（受试者工作特征曲线下面积），95% 置信区间为 [0.7632, 0.8251]。
该性能显著优于单一的语义熵方法（提升 +0.2298）以及基于 SelfCheckGPT 风格的一致性基线方法（提升 +0.2457）。

3. 高效变体

为了适应实际部署需求，研究还提出了一种高效的 5 次调用变体（5-call variant）。该变体在保持较低计算成本的同时，仍能达到 0.7795 的 AUROC，证明了其在黑盒 LLM API 场景下的实用部署潜力。

关键要点

黑盒检测能力：BEACON 是一种纯黑盒框架，仅依赖模型输出，无需访问内部参数或外部知识源，适用于所有通过 API 访问的 LLMs。
多维特征融合：幻觉检测不是单一维度的任务。BEACON 通过整合语义熵、嵌入几何、思维链一致性和释义稳定性等 31 个特征，捕捉幻觉的多维本质。
显著的性能优势：在七个基准测试中，BEACON 的 AUROC 性能显著优于现有的单一指标方法（如语义熵）和一致性基线方法。
特征重要性分析：分析表明，幻觉检测需要结合多种不确定性信号，单一信号往往不足以准确识别所有类型的幻觉。
实用化部署方案：提出的 5 次调用变体在性能损失有限的情况下大幅降低了调用成本，使得该方法能够广泛应用于商业 LLM API 的幻觉监控中。

意义与影响

BEACON 的提出为 LLMs 的可靠性部署提供了一条新的技术路径。其核心价值在于解决了现有检测方法对内部访问权限的依赖问题，使得开发者可以在不透明模型（Black-box Models）上实施有效的幻觉监控。

推动黑盒模型的可信化：随着越来越多的企业通过 API 调用 LLMs，BEACON 提供了一种无需修改模型内部结构即可评估输出质量的方法，降低了幻觉检测的门槛。
揭示幻觉的多维特性：研究结果证实了幻觉检测不能仅靠单一指标（如简单的语义熵），必须结合多种行为信号。这为后续研究提供了重要的理论指导，即应关注模型输出的多维行为特征。
平衡性能与成本：通过提供高效变体，BEACON 展示了在计算资源受限环境下实现高精度幻觉检测的可能性，促进了该技术从学术研究向工业界实际应用的转化。

总之，BEACON 不仅是一个性能优越的检测工具，更是一个强调“行为聚合”理念的方法论，为未来构建更可靠、更可解释的 LLM 系统奠定了基础。

查看原文 →arxiv.org