技术博客arXiv cs.CL·2 小时前

临床证据强度可从大模型表征中恢复，而非其声明等级

原标题：The strength of clinical evidence is recoverable from language model representations but not from their stated grades

速览

研究测试了22款大语言模型，发现其内部激活状态能准确反映临床证据强度，AUROC达71.8。然而，模型口头声明的等级准确率仅随机水平，比内部信号低25-27个百分点。这表明大模型虽能识别证据强弱，却无法有效表达，声明等级存在严重失真。

AI 深度解读

临床证据强度的可恢复性：从语言模型表征中读取，而非其陈述等级

背景

大型语言模型（LLMs）在临床证据总结领域的应用日益广泛。在医疗决策支持、文献综述生成等场景中，模型不仅需要生成关于某种疗法或诊断的声明，还需要准确评估该声明背后的证据权重（weight）。一个声明的可信度高度依赖于支持它的证据强度。

然而，现有的临床大模型在传达置信度方面表现不佳。尽管研究表明，模型内部激活状态（activations）中往往蕴含着模型未曾明确陈述的属性（如事实的真伪），但对于“临床模型是否真正注册（register）了证据强度这一独立于事实真伪的属性”，以及“当被询问时，模型是否能正确陈述这一强度”，目前尚缺乏系统的测试。此外，这种信号可能仅仅是词汇层面的（lexical），而非深层的逻辑推理结果。

核心内容

这项研究由 Soroosh Tayebi Arasteh 等人提交至 arXiv（cs.CL），旨在探究临床大模型内部是否隐含了关于证据强度的有序信号，以及这种信号是否能通过模型输出的文本等级准确反映。

数据构建与预处理

研究团队从六个公开来源编译了 45,134 条临床声明。为了标准化评估，研究人员将这些声明中的 20,611 条进行了协调处理，依据三个独立的框架，将其划分为四个等级的证据等级（evidence grade）。这种多框架的划分有助于排除特定框架偏差，验证证据强度的通用性。

实验设置

研究测试了来自多个开发者的 22 个本地、开源权重的大语言模型。这些模型涵盖了不同的规模（0.6亿至700亿参数）、不同的领域（通用、医疗专用）以及不同的架构类型（包括推理模型）。

为了全面评估模型表现，研究设置了多种控制变量：

词汇控制：检查信号是否仅由特定词汇触发。
事实真伪控制：区分证据强度与声明本身的真假。
跨框架控制：验证信号在不同证据分级框架下的一致性。

主要发现

表征中可恢复证据强度：研究人员使用线性估计器（linear estimator）对模型内部表征进行分析，发现所有测试模型中都存在可恢复的证据强度信号。中位 AUROC（曲线下面积）为 71.8。这意味着，尽管模型没有明确说出，但其内部状态确实编码了证据强度的信息。
规模与类型的影响：令人意外的是，这种可解码性（decodability）并未随着模型参数规模的增加而提升。相反，专门针对推理优化的模型（reasoning models）表现最弱。这表明，简单的规模扩大或推理能力的增强，并不必然带来对证据强度更深层的理解或表达。
陈述等级与内部信号脱节：模型实际输出的证据等级（stated grades）几乎等同于随机猜测水平。与线性估计器从表征中恢复的信号相比，模型陈述的等级低了 25-27 个百分点。这揭示了模型“知道”（表征中存在信号）与“说出”（输出文本）之间的巨大鸿沟。
信号的性质：可恢复的信号主要是词汇性的（lexical），且在不同主题或不同证据框架之间缺乏迁移能力。然而，关键的是，这一信号独立于事实真伪（truth）。即使声明本身是假的，模型内部的信号仍能标记出支持该声明的证据强度较弱（AUROC 69.2）。

关键要点

内部信号存在但未被表达：临床大模型的内部表征中确实包含有序的、关于证据强度的信号，但模型在生成文本时未能有效利用这一信息来陈述等级。
陈述等级失效：模型输出的证据等级准确度极低，接近随机水平，无法作为评估临床声明支持度的可靠依据。
规模不带来优势：模型参数规模的增加并未提高证据强度信号的可解码性；推理模型的表现甚至弱于其他类型模型。
信号独立于真伪：模型内部编码的证据强度信号与声明的事实真伪是两个正交的概念。模型可以识别出“证据薄弱”的声明，无论该声明最终被判定为真或假。
词汇性主导：恢复出的信号主要依赖于词汇层面的模式，而非深层的逻辑推理结构，且跨领域迁移能力有限。

意义与影响

这项研究对当前临床 AI 的发展提出了严峻的挑战和重要的启示：

信任危机与透明度需求：临床医生和研究人员不能盲目信任大模型输出的“证据等级”。模型可能在内部“感知”到了证据的强弱，但在输出时却未能正确传达。这要求在使用 LLM 进行临床决策支持时，必须引入额外的验证机制，如通过探针（probes）直接分析模型内部表征，而非仅依赖其文本输出。
模型评估指标的重新定义：现有的评估方法多关注模型输出的准确性或事实一致性，而忽视了模型对“不确定性”或“证据权重”的表达能力。未来的评估应包含对模型内部状态中隐含置信度信号的检测，以衡量模型是否真正理解证据的层级结构。
对“推理模型”的反思：研究发现推理模型在表达证据强度方面表现最弱，这可能暗示当前的推理架构（如 Chain-of-Thought）在医疗证据整合方面存在特定的盲区或偏差。开发者需要重新审视推理机制在医疗场景下的适用性，可能需要专门针对证据权重进行微调或架构调整。
从“生成”转向“诊断”：鉴于信号主要是词汇性的且缺乏迁移性，未来的工作可能需要开发更鲁棒的内部诊断工具，以便在模型生成错误结论之前，通过其内部激活状态提前预警低证据强度的声明。

总之，这项研究揭示了一个关键矛盾：临床大模型在表征层面“知道”证据的强弱，但在交互层面“无法”或“不愿”正确陈述。这一发现为构建更可靠、透明的医疗 AI 系统指明了新的研究方向。

查看原文 →arxiv.org