技术博客arXiv cs.CL·1 天前

神经元证据：医学大模型幻觉难以通过神经元控制缓解

原标题：Readable but Not Controllable: Neuron-Level Evidence for Medical LLM Hallucination

速览

本文基于arXiv:2607.00158v1，利用四款开源医学LLM在多个问答数据集上验证了幻觉的内部表征。作者设计了简单条件探针实现高精度的幻觉检测，并揭示信号在模型内部分布广泛而非集中于少数神经元。随机少量神经元即可接近全信号，而低维随机投影也能保留大部分检测能力。但跨16个模型-数据集组合的因果实验显示，幻觉易于解码却难以通过神经元操控纠正，强调需要超越识别神经元层面的更深刻干预策略。

AI 深度解读

背景

医疗大语言模型（Medical LLM）部署面临的核心障碍之一是幻觉现象（hallucination），即模型在回答问题时产生与真实知识不符的虚构信息。虽然已有研究能检测到幻觉，但内部表征是否可被用于控制而非仅用于检测，仍缺乏清晰证据。本文旨在通过神经元级别的分析，探究医疗幻觉的内部机制及其可控性。研究通过四个开源模型在多个医疗问答数据集上进行测试，发现检测信号分布广泛且冗余，难以通过简单神经元选择实现可靠控制，凸显了表示与可控性之间的分离。

核心内容

检测机制与性能
作者构建了一个简单且精心设计的探测器（probe），可可靠检测幻觉。在四个开源模型覆盖的医疗问答数据集套件上，探测器的AUROC（Area Under the Receiver Operating Characteristic Curve，受试者工作特征曲线下的面积）得分在0.77至0.86之间，表明即使在低复杂性场景下，内部激活也能有效区分真实回答与幻觉输出。

信号分布特性
进一步分析显示，该检测信号并非狭隘局部化，而是分布广泛且冗余的。系统性选取的神经元仅在极小子集规模时才优于随机神经元；而数百个随机神经元组成的子集即可恢复几乎全部检测信号；低维随机投影（random projections）同样保留了大部分检测性能。这些结果表明，幻觉相关的信息在模型内部被分散存储，而不是集中于少数关键神经元。

可控性测试与性能差距
为了探讨内部表征是否可被行动化，作者在16个模型-数据集组合上进行因果干预实验（causally actionable）。结果显示，解码性（decodability）与可控性之间存在显著差距：易于检测的内部结构并未转化为可靠的神经元级控制。同一内部表征能让幻觉被轻松识别，却无法通过针对关联神经元的干预实现稳定修正。
更广泛而言，本研究表明医疗幻觉的缓解并非简单识别“正确神经元”的问题，而是体现于表示（what representations reveal）与可改变性（what they allow us to change）之间的更深分离。

实验设置概述
研究使用四个开源模型、标准医疗问答数据集套件进行系统测试。探测器基于精心条件化的激活数据训练，干预实验则通过精确修改关联神经元激活水平来评估因果效应。所有结果均在模型-数据集组合层面复现，强化了发现的普遍性。

关键要点

精心设计的探测器在四个开源模型和医疗问答数据集上可可靠检测幻觉，AUROC 0.77-0.86。
检测信号分布广泛且冗余：系统选神经元仅在极小子集时优于随机；数百随机神经元恢复几乎全部信号；低维随机投影保留大部分性能。
16个模型-数据集组合实验显示，幻觉易于解码但难以通过神经元级干预实现可靠控制，存在显著的解码性-可控性差距。
医疗幻觉的内部表征可被检测，却无法通过针对最相关神经元的转向实现稳定修正，凸显表示可见性与可改变性之间的分离。
幻觉缓解需超越单纯识别神经元，更需理解表示与可操作性之间的深层差异。

意义与影响

本研究为医疗LLM的幻觉治理提供了神经元级别的深度洞见：幻觉虽然在内部激活中清晰可见，却难以通过简单的神经元干预进行纠错。这表明单纯的“找对神经元”策略难以奏效，需转向更复杂的表示学习或干预方法。研究结果将指导模型架构优化、提示工程设计以及未来的安全评估框架，尤其适用于医疗AI部署场景。长远来看，它推动了学界对LLM内部机制的更精细理解，为构建更可控、安全的医疗智能系统奠定基础。

查看原文 →arxiv.org

神经元证据：医学大模型幻觉难以通过神经元控制缓解

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐