技术博客arXiv cs.CL·3 天前

语义稳定性评估：不同表述导致临床大模型诊断结果差异

原标题：Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

速览

大型语言模型在临床应用中因对语言细微变化敏感而存在安全风险。研究提出基于自然语言推理的语义验证框架，筛选保留临床含义的提示变体。评估显示，领域专用模型在语义鲁棒性上表现混合，专业化并未一致提升稳定性。

AI 深度解读

Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

背景

大型语言模型（LLMs）正日益广泛地应用于临床医疗场景。然而，这些模型的行为对细微的语言变化表现出极高的敏感性，例如句子的重述或句法结构的调整。在医疗这一安全关键型领域，语义等价的输入应当产生一致的预测结果，这种敏感性构成了潜在的安全风险。

当前的一个主要挑战在于，如何确保提示词（prompt）的变体真正保留了临床含义。传统的基于嵌入（embedding）的相似度指标往往无法准确捕捉涉及否定、时间性或严重程度等关键临床细节的区别。因此，仅依靠表面上的文本相似度来评估模型鲁棒性是不够的，需要更严谨的语义验证机制。

核心内容

本研究提出了一种基于自然语言推理（NLI）的语义验证框架，旨在解决上述问题。该框架首先用于筛选出保留原意的提示词变体，随后利用“LLM-as-a-judge”（以LLM作为裁判）的方法对这些变体进行进一步细化，并最终由临床专家进行审计，以确保变体在临床语义上的准确性。

为了量化模型对语义变化的敏感度，研究引入了三个关键指标：

MeaningPreserving Variation Sensitivity (MVS)：保留语义的变体敏感度。
Confidence Variation ($\Delta C$)：置信度变化。
Worst-Case Instability (WCI)：最坏情况下的不稳定性。

研究团队在 DiagnosisQA 和 MedQA 数据集的基础上，构建了经过重构的提示词，并对 16 个开源的通用（GP）和医疗专用（DS）大型语言模型进行了评估。为了控制变量，这些模型均选自相同的模型家族且参数量级一致。

研究结果揭示了一个反直觉的现象：领域专用（DS）模型之间的鲁棒性差异是混合的，且高度依赖于具体模型。也就是说，领域专业化并不总是能一致地提高或降低模型对保留语义的提示词重构的鲁棒性。事实上，几个 DS 模型在与其他通用模型对比时，表现出了极强的鲁棒性；同时，强大的通用基线模型（GP baselines）也依然具有竞争力。

关键要点

临床语义验证的必要性：传统的嵌入相似度指标不足以捕捉临床文本中的否定、时间性和严重程度等细微差别，因此需要引入基于 NLI 的框架结合 LLM 裁判和人类专家审计，来确保提示词变体的语义等价性。
新的评估指标体系：提出了 MVS、$\Delta C$ 和 WCI 三个指标，用于全面量化 LLM 在面临语义等价但表述不同的输入时的稳定性。
领域专业化并非鲁棒性的保证：实验结果显示，医疗专用模型（DS）并不天然比通用模型（GP）更稳定。DS 模型的鲁棒性表现参差不齐，部分 DS 模型表现优异，但也有部分表现不如预期。
通用模型依然强劲：在相同的模型家族和参数规模下，经过良好训练的通用基线模型在语义稳定性方面依然具有强大的竞争力，甚至在某些情况下优于专用模型。
数据基础：评估基于 DiagnosisQA 和 MedQA 数据集，通过重构提示词来模拟临床场景中患者描述方式不同但病情实质相同的情况。

意义与影响

这项研究对医疗 AI 的开发和应用具有重要的指导意义。首先，它指出了当前评估医疗 LLM 鲁棒性的盲点，即仅仅关注准确率是不够的，必须关注模型在面对语义等价但表述不同的输入时的一致性。这对于保障患者安全至关重要，因为临床记录中的措辞变化不应导致诊断结果的剧烈波动。

其次，研究结果挑战了“领域专用模型必然更鲁棒”的假设。这表明，在构建医疗 AI 系统时，不能盲目依赖领域微调带来的性能提升，而必须对模型的语义稳定性进行专门的测试和优化。对于开发者而言，这意味着在部署模型前，需要采用更严格的语义验证流程（如本研究提出的 NLI 框架），并综合考虑通用模型与专用模型的优缺点，选择最适合特定临床任务的模型架构。最终，这有助于推动更可靠、更安全的临床辅助决策系统的落地。

查看原文 →arxiv.org