← 返回信息流
技术博客arXiv cs.CL·2 小时前

临床证据强度可从大模型表征中恢复,而非其声明等级

原标题:The strength of clinical evidence is recoverable from language model representations but not from their stated grades

速览

研究测试了22款大语言模型,发现其内部激活状态能准确反映临床证据强度,AUROC达71.8。然而,模型口头声明的等级准确率仅随机水平,比内部信号低25-27个百分点。这表明大模型虽能识别证据强弱,却无法有效表达,声明等级存在严重失真。

AI 深度解读

临床证据强度的可恢复性:从语言模型表征中读取,而非其陈述等级

背景

大型语言模型(LLMs)在临床证据总结领域的应用日益广泛。在医疗决策支持、文献综述生成等场景中,模型不仅需要生成关于某种疗法或诊断的声明,还需要准确评估该声明背后的证据权重(weight)。一个声明的可信度高度依赖于支持它的证据强度。

然而,现有的临床大模型在传达置信度方面表现不佳。尽管研究表明,模型内部激活状态(activations)中往往蕴含着模型未曾明确陈述的属性(如事实的真伪),但对于“临床模型是否真正注册(register)了证据强度这一独立于事实真伪的属性”,以及“当被询问时,模型是否能正确陈述这一强度”,目前尚缺乏系统的测试。此外,这种信号可能仅仅是词汇层面的(lexical),而非深层的逻辑推理结果。

核心内容

这项研究由 Soroosh Tayebi Arasteh 等人提交至 arXiv(cs.CL),旨在探究临床大模型内部是否隐含了关于证据强度的有序信号,以及这种信号是否能通过模型输出的文本等级准确反映。

数据构建与预处理

研究团队从六个公开来源编译了 45,134 条临床声明。为了标准化评估,研究人员将这些声明中的 20,611 条进行了协调处理,依据三个独立的框架,将其划分为四个等级的证据等级(evidence grade)。这种多框架的划分有助于排除特定框架偏差,验证证据强度的通用性。

实验设置

研究测试了来自多个开发者的 22 个本地、开源权重的大语言模型。这些模型涵盖了不同的规模(0.6亿至700亿参数)、不同的领域(通用、医疗专用)以及不同的架构类型(包括推理模型)。

为了全面评估模型表现,研究设置了多种控制变量:

  1. 词汇控制:检查信号是否仅由特定词汇触发。
  2. 事实真伪控制:区分证据强度与声明本身的真假。
  3. 跨框架控制:验证信号在不同证据分级框架下的一致性。

主要发现

  1. 表征中可恢复证据强度: 研究人员使用线性估计器(linear estimator)对模型内部表征进行分析,发现所有测试模型中都存在可恢复的证据强度信号。中位 AUROC(曲线下面积)为 71.8。这意味着,尽管模型没有明确说出,但其内部状态确实编码了证据强度的信息。

  2. 规模与类型的影响: 令人意外的是,这种可解码性(decodability)并未随着模型参数规模的增加而提升。相反,专门针对推理优化的模型(reasoning models)表现最弱。这表明,简单的规模扩大或推理能力的增强,并不必然带来对证据强度更深层的理解或表达。

  3. 陈述等级与内部信号脱节: 模型实际输出的证据等级(stated grades)几乎等同于随机猜测水平。与线性估计器从表征中恢复的信号相比,模型陈述的等级低了 25-27 个百分点。这揭示了模型“知道”(表征中存在信号)与“说出”(输出文本)之间的巨大鸿沟。

  4. 信号的性质: 可恢复的信号主要是词汇性的(lexical),且在不同主题或不同证据框架之间缺乏迁移能力。然而,关键的是,这一信号独立于事实真伪(truth)。即使声明本身是假的,模型内部的信号仍能标记出支持该声明的证据强度较弱(AUROC 69.2)。

关键要点

  • 内部信号存在但未被表达:临床大模型的内部表征中确实包含有序的、关于证据强度的信号,但模型在生成文本时未能有效利用这一信息来陈述等级。
  • 陈述等级失效:模型输出的证据等级准确度极低,接近随机水平,无法作为评估临床声明支持度的可靠依据。
  • 规模不带来优势:模型参数规模的增加并未提高证据强度信号的可解码性;推理模型的表现甚至弱于其他类型模型。
  • 信号独立于真伪:模型内部编码的证据强度信号与声明的事实真伪是两个正交的概念。模型可以识别出“证据薄弱”的声明,无论该声明最终被判定为真或假。
  • 词汇性主导:恢复出的信号主要依赖于词汇层面的模式,而非深层的逻辑推理结构,且跨领域迁移能力有限。

意义与影响

这项研究对当前临床 AI 的发展提出了严峻的挑战和重要的启示:

  1. 信任危机与透明度需求: 临床医生和研究人员不能盲目信任大模型输出的“证据等级”。模型可能在内部“感知”到了证据的强弱,但在输出时却未能正确传达。这要求在使用 LLM 进行临床决策支持时,必须引入额外的验证机制,如通过探针(probes)直接分析模型内部表征,而非仅依赖其文本输出。

  2. 模型评估指标的重新定义: 现有的评估方法多关注模型输出的准确性或事实一致性,而忽视了模型对“不确定性”或“证据权重”的表达能力。未来的评估应包含对模型内部状态中隐含置信度信号的检测,以衡量模型是否真正理解证据的层级结构。

  3. 对“推理模型”的反思: 研究发现推理模型在表达证据强度方面表现最弱,这可能暗示当前的推理架构(如 Chain-of-Thought)在医疗证据整合方面存在特定的盲区或偏差。开发者需要重新审视推理机制在医疗场景下的适用性,可能需要专门针对证据权重进行微调或架构调整。

  4. 从“生成”转向“诊断”: 鉴于信号主要是词汇性的且缺乏迁移性,未来的工作可能需要开发更鲁棒的内部诊断工具,以便在模型生成错误结论之前,通过其内部激活状态提前预警低证据强度的声明。

总之,这项研究揭示了一个关键矛盾:临床大模型在表征层面“知道”证据的强弱,但在交互层面“无法”或“不愿”正确陈述。这一发现为构建更可靠、透明的医疗 AI 系统指明了新的研究方向。

查看原文 →arxiv.org