技术博客arXiv cs.CL·1 小时前

大模型改写病历易丢失诊断不确定性，新基准揭示临床部署风险

原标题：Possible or Definite? A Benchmark for Evaluating Diagnostic Uncertainty Preservation in Clinical Text

速览

大型语言模型在临床文本摘要和改写中日益普及，但其是否保留诊断不确定性尚缺乏评估。研究构建了包含1200份文档和9184个不确定性标注的基准，评估发现大模型保留原始不确定性线索的能力较差，且难以区分细微程度差异。该研究揭示了标准评估指标未覆盖的失败模式，对大模型在临床工作流中的安全部署具有重要启示。

AI 深度解读

Possible or Definite? 临床文本中诊断不确定性保留的基准测试

背景

随着大型语言模型（LLMs）在医疗领域的渗透，其应用场景已从简单的文本处理扩展到复杂的临床任务，如病历摘要生成、文本修订及辅助诊断等。然而，当前的评估体系存在显著的盲区：大多数研究主要关注 LLM 生成文本的流畅度（fluency）和连贯性（coherence），却忽视了临床文本中一个至关重要且极易被篡改的语义要素——诊断不确定性（Diagnostic Uncertainty）。

在临床实践中，医生使用的语言并非绝对真理的陈述，而是基于证据强度的概率表达。例如，“可能患有肺炎”（possible pneumonia）与“确诊肺炎”（definite pneumonia）在医学意义上有着天壤之别。前者传达了现有证据的局限性，直接指导后续的检查策略和治疗方案；后者则意味着证据确凿，需立即采取特定干预措施。如果 LLM 在生成或改写过程中错误地消除了这种不确定性表达，不仅会扭曲临床含义，更可能误导临床决策，带来严重的医疗安全风险。

尽管这一风险显而易见，但关于 LLM 是否能正确保留原始文本中的不确定性线索，目前仍缺乏系统性的评估和深入探索。

核心内容

为了解决上述问题，研究人员在 arXiv 上发表了一篇题为《Possible or Definite? A Benchmark for Evaluating Diagnostic Uncertainty Preservation in Clinical Text》的论文，系统地评估了 LLM 在临床文本处理中对诊断不确定性的保留能力。该研究通过构建专用基准测试并评估主流模型，揭示了当前技术在实际临床部署中的关键缺陷。

1. 构建不确定性基准测试（Benchmark）

研究团队首先构建了一个专门用于评估诊断不确定性保留能力的基准数据集。该数据集具有以下特征：

规模：包含 1,200 份真实的临床文档。
标注粒度：共包含 9,184 个不确定性标注点。
层级结构：不确定性被划分为五个不同的层级（levels），以捕捉临床语言中细微的概率差异和证据强度变化。

这一基准测试旨在量化模型在处理不同强度不确定性表达时的表现，而非仅仅判断其是否“正确”或“错误”。

2. 模型评估与实验结果

研究团队选取了三个主流的大型语言模型（LLMs），在上述基准测试上进行了全面评估。评估的核心指标是模型在生成或改写文本时，是否保留了原文中的不确定性线索及其对应的强度层级。

实验结果揭示了两个主要问题：

保留率极低：LLMs 在保留原始不确定性线索方面表现糟糕。数据显示，模型正确保留不确定性表达的比例往往不到 50%。这意味着在超过一半的情况下，模型要么完全删除了不确定性修饰语，要么将其替换为确定性陈述，从而改变了原意。
难以区分细微差别：LLMs 在处理相邻不确定性层级之间的细微区别时存在显著困难。例如，模型可能难以区分“疑似”（suspected）与“可能”（possible）之间的证据强度差异，导致语义漂移。

3. 失败模式的揭示

这项研究指出，标准的自动化评估指标（如 BLEU、ROUGE 或基于流畅度的评分）无法捕捉到这种语义层面的失败。一个生成结果可能在语法上完美流畅、逻辑上看似连贯，但却在关键的医学语义上发生了根本性扭曲。这种“看似正确实则危险”的现象，是标准评估体系未能覆盖的盲区。

关键要点

语义风险被低估：当前对 LLM 在医疗领域应用的评估过于侧重文本生成的表面质量（流畅性），而忽视了临床语义的准确性，特别是诊断不确定性的保留。
基准测试的创新性：研究构建了首个包含 1,200 份文档、9,184 个标注点、涵盖五个不确定性层级的专用基准测试，为量化评估提供了标准工具。
LLMs 表现不佳：实验表明，主流 LLMs 仅能保留不到一半的原始不确定性线索，且无法准确区分相邻层级的不确定性强度。
临床含义的改变：错误地消除或扭曲不确定性表达（如将“可能”改为“确诊”）会彻底改变临床决策路径，增加误诊或过度治疗的风险。
现有评估体系的局限：传统的 NLP 评估指标无法检测此类语义错误，需要引入针对临床语义保真度的新评估维度。

意义与影响

这项研究对 LLM 在临床工作流中的安全部署具有重要的警示意义和实际影响：

安全部署的必要性：在将 LLM 引入临床辅助决策、病历摘要或患者沟通等高风险场景之前，必须建立针对“语义保真度”的严格评估标准。仅仅追求文本的流畅性和连贯性是远远不够的，甚至可能是危险的。
重新定义评估指标：医疗 AI 领域需要开发新的评估指标，专门用于衡量模型对临床不确定性、证据强度和潜在风险的保留能力。这要求评估体系从“语言层面”深入到“医学语义层面”。
模型优化的方向：对于 LLM 开发者和医疗 AI 研究者而言，这项研究指明了优化方向。未来的模型训练可能需要引入更多的临床不确定性语料，并采用强化学习等技术，专门优化模型对概率性语言和证据强度的敏感度。
临床信任与责任：如果 LLM 无法可靠地保留不确定性，临床医生将难以信任其输出结果。明确这一失败模式有助于制定更合理的责任划分和使用规范，确保在技术成熟度达到临床安全标准之前，不将其用于关键决策环节。

总之，这篇论文不仅揭示了一个具体的技术缺陷，更呼吁整个社区关注 AI 在医疗应用中“语义准确性”的核心地位，为构建更安全、更可靠的临床 AI 系统奠定了基础。

查看原文 →arxiv.org