← 返回信息流
技术博客arXiv cs.CL·2 小时前

BEACON框架:无需内部访问的大模型幻觉检测新方法

原标题:BEACON: Behavioral Entropy Aggregation for Cross-Model Hallucination Detection in Large Language Models

速览

针对大语言模型幻觉问题,研究提出BEACON黑盒检测框架,无需访问模型内部表示或外部知识库。该框架从结构化多轮生成中提取31维特征向量,整合语义熵、嵌入几何等信号。实验显示其AUROC达0.8123,显著优于基线方法,且高效变体适用于API部署。

AI 深度解读

BEACON:基于行为熵聚合的大语言模型跨模型幻觉检测框架

背景

大语言模型(LLMs)在生成事实性错误或缺乏依据的内容时,会产生所谓的“幻觉”(Hallucination)。这一现象已成为阻碍 LLMs 可靠部署的关键瓶颈。尽管现有的幻觉检测方法层出不穷,但许多方法依赖于访问模型的内部表示(如注意力权重或隐藏层状态)或需要外部知识库的支持,这在实际应用中往往受到限制,特别是对于通过 API 访问的黑盒模型而言。因此,开发一种仅依赖模型输出、无需内部访问权限且能跨不同模型架构工作的幻觉检测框架,成为当前自然语言处理领域的重要研究方向。

核心内容

本文提出了一种名为 BEACON(Behavioral Entropy Aggregation for Cross-model hallucination detectiON)的黑盒幻觉检测框架。该框架的核心优势在于其完全基于模型输出进行操作,无需访问内部表示或依赖外部知识库。

1. 多通道生成与特征提取

BEACON 通过结构化的多通道生成(multi-pass generation)过程,从模型输出中提取一个 31 维的特征向量。这一过程并非单一维度的评估,而是整合了多种信号:

  • 基于 NLI 的语义熵(NLI-based semantic entropy):利用自然语言推理(NLI)模型来量化生成内容的不确定性。
  • 嵌入几何结构(Embedding geometry):分析生成文本在嵌入空间中的几何分布特征。
  • 思维链一致性(Chain-of-thought consistency):评估推理步骤之间的逻辑连贯性。
  • 释义稳定性(Paraphrase stability signals):检测不同表述方式下语义的稳定性。

2. 分类器与性能评估

研究团队使用包含 7,617 个标注样本的数据集对梯度提升分类器(gradient-boosted classifier)进行了训练,评估范围涵盖七个基准测试集。实验结果显示:

  • BEACON 达到了 0.8123 +/- 0.0102 的 AUROC(受试者工作特征曲线下面积),95% 置信区间为 [0.7632, 0.8251]。
  • 该性能显著优于单一的语义熵方法(提升 +0.2298)以及基于 SelfCheckGPT 风格的一致性基线方法(提升 +0.2457)。

3. 高效变体

为了适应实际部署需求,研究还提出了一种高效的 5 次调用变体(5-call variant)。该变体在保持较低计算成本的同时,仍能达到 0.7795 的 AUROC,证明了其在黑盒 LLM API 场景下的实用部署潜力。

关键要点

  • 黑盒检测能力:BEACON 是一种纯黑盒框架,仅依赖模型输出,无需访问内部参数或外部知识源,适用于所有通过 API 访问的 LLMs。
  • 多维特征融合:幻觉检测不是单一维度的任务。BEACON 通过整合语义熵、嵌入几何、思维链一致性和释义稳定性等 31 个特征,捕捉幻觉的多维本质。
  • 显著的性能优势:在七个基准测试中,BEACON 的 AUROC 性能显著优于现有的单一指标方法(如语义熵)和一致性基线方法。
  • 特征重要性分析:分析表明,幻觉检测需要结合多种不确定性信号,单一信号往往不足以准确识别所有类型的幻觉。
  • 实用化部署方案:提出的 5 次调用变体在性能损失有限的情况下大幅降低了调用成本,使得该方法能够广泛应用于商业 LLM API 的幻觉监控中。

意义与影响

BEACON 的提出为 LLMs 的可靠性部署提供了一条新的技术路径。其核心价值在于解决了现有检测方法对内部访问权限的依赖问题,使得开发者可以在不透明模型(Black-box Models)上实施有效的幻觉监控。

  1. 推动黑盒模型的可信化:随着越来越多的企业通过 API 调用 LLMs,BEACON 提供了一种无需修改模型内部结构即可评估输出质量的方法,降低了幻觉检测的门槛。
  2. 揭示幻觉的多维特性:研究结果证实了幻觉检测不能仅靠单一指标(如简单的语义熵),必须结合多种行为信号。这为后续研究提供了重要的理论指导,即应关注模型输出的多维行为特征。
  3. 平衡性能与成本:通过提供高效变体,BEACON 展示了在计算资源受限环境下实现高精度幻觉检测的可能性,促进了该技术从学术研究向工业界实际应用的转化。

总之,BEACON 不仅是一个性能优越的检测工具,更是一个强调“行为聚合”理念的方法论,为未来构建更可靠、更可解释的 LLM 系统奠定了基础。

查看原文 →arxiv.org