技术博客arXiv cs.AI·3 天前

EHRBench：基于真实病历的大模型临床决策自动化评测基准

原标题：EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

速览

针对大模型在真实临床决策中可靠性不足的问题，研究团队推出了EHRBench基准。该基准通过电子病历、大模型与知识库的交互流水线，自动化生成近百万条涵盖诊断、治疗和预后的问答数据。在30多款大模型上的测试验证了该基准的可靠性，并揭示了提升临床AI系统可靠性的关键差距。

AI 深度解读

EHRBench：基于真实电子健康记录的自动化临床决策大模型基准测试

背景

临床决策（Clinical Decision Making, CDM）是现实临床工作流的核心环节。在这一过程中，临床医生需要在证据不完整的情况下，推断诊断结果、选择治疗方案或预判未来的健康结局。随着大型语言模型（LLMs）展现出强大的语言处理能力、广泛的生物医学知识储备以及高效的处理速度，它们被越来越多地用于辅助此类决策任务。

然而，尽管 LLMs 在通用任务上表现优异，但其在真实世界临床决策任务中的可靠性仍未被充分理解。目前，评估 CDM 模型（尤其是基于 LLM 的模型）面临两大挑战：

数据规模与质量的平衡：理想的医疗决策基准需要通过自动化且可靠的流程构建，以确保数据既具备大规模覆盖，又保证高质量。
现实相关性不足：许多现有基准缺乏与真实患者电子健康记录（EHRs）的深度结合，难以有效评估那些需要实质性生物医学知识和临床推理能力的实际 CDM 任务。

为了填补这一空白，研究团队引入了 EHRBench，这是一个基于真实 EHR 数据、自动化构建且可靠的基准测试，旨在大规模评估基于 LLM 的临床决策能力。

核心内容

EHRBench 的核心创新在于其构建流程。为了确保可扩展性（Scalability）和可靠性（Reliability），该基准通过一个 EHR-LLM-KB（知识图谱/知识库）交互管道 进行构建。具体流程如下：

1. 自动化数据转换与实例化

为了提高效率，研究使用了一个专门的 LLM，将就诊级别（encounter-level）的 EHR 轨迹自动转换为结构化模板。随后，这些模板被确定性（deterministically）地实例化为问答（QA）项目。这种方法避免了人工标注的高成本，同时保证了数据结构的一致性。

2. 基于知识库的验证与增强

在并行处理中，系统应用了基于知识库（KB-based）的系统性验证和增强机制。这一环节旨在：

过滤掉由 LLM 产生的幻觉（hallucinated）或模糊的关系。
提高最终基准数据的可靠性。

3. 基准规模与任务类型

通过上述管道，研究团队构建了近 100 万（具体为 960,067 个） QA 项目。这些项目涵盖了三个需要核心推理能力的临床决策任务：

诊断（Diagnosis）
治疗（Treatment）
预后（Prognosis）

4. 模型评估与分析

研究团队在 EHRBench 上对 30 多个 具有代表性的 LLMs 进行了基准测试，并对其性能和鲁棒性进行了详细分析。

关键要点

自动化构建管道：EHRBench 采用“EHR-LLM-KB”交互管道，实现了从非结构化 EHR 数据到高质量 QA 对的大规模自动化生成，解决了传统医疗 AI 基准数据标注成本高、规模小的问题。
真实世界数据 grounding：基准数据直接源自真实患者的 EHR 轨迹，而非合成数据或简化案例，这使得评估结果更能反映模型在需要实质性生物医学知识和临床推理的真实场景中的表现。
严格的可靠性验证：通过引入知识库（KB）进行系统性验证，有效过滤了 LLM 常见的幻觉问题和模糊逻辑，确保了基准测试的严谨性和可信度。
大规模覆盖：构建了超过 96 万个 QA 项目，覆盖了诊断、治疗和预后三大核心临床决策领域，提供了前所未有的评估规模。
一致的评估趋势：对 30+ 个主流 LLM 的测试结果显示出一致的能力趋势，这不仅验证了 EHRBench 本身的可靠性，也揭示了当前 LLM 在迈向临床可靠系统方面存在的具体差距（actionable gaps）。

意义与影响

EHRBench 的发布对医疗 AI 领域具有重要意义：

提供可靠的评估标准：目前缺乏一个既大规模又高质量的临床决策基准。EHRBench 填补了这一空白，为衡量 LLM 在真实临床环境中的表现提供了一个标准化、可复现的工具。
推动临床 AI 落地：通过强调“可靠性”和“真实 EHR 数据”，EHRBench 引导研究者关注模型在复杂、不确定环境下的推理能力，而不仅仅是语言生成能力。这对于开发真正可用于辅助临床决策的系统至关重要。
识别改进方向：详细的性能分析结果帮助识别了当前 LLM 在特定临床任务（如预后判断或复杂治疗选择）中的薄弱环节，为后续模型优化提供了明确的方向。
方法论示范：其“LLM 生成 + KB 验证”的自动化构建范式，为其他垂直领域（如法律、金融）的基准测试提供了可借鉴的方法论，展示了如何利用自动化手段平衡数据规模与质量。

总之，EHRBench 不仅是一个测试集，更是一个连接通用大语言模型与专业临床决策需求的桥梁，为构建安全、可靠、可信赖的临床 AI 系统奠定了基础。

查看原文 →arxiv.org