在电子病历基础模型中分层建模ICD编码
速览
现有电子病历基础模型通常将ICD诊断编码视为扁平标记,忽略了其内在的层级结构。本研究提出将ICD-10-CM层级作为归纳偏置,通过增强Transformer序列和构建图结构两种机制融入层级信息。实验表明,显式编码层级结构能显著提升域内预测及跨数据集迁移性能。
AI 深度解读
电子健康记录基础模型中 ICD 代码的层级建模
背景
电子健康记录(EHR)基础模型在医疗人工智能领域的应用日益广泛,但现有的主流方法在处理诊断代码时存在显著的局限性。通常情况下,这些模型将 ICD(国际疾病分类)诊断代码视为扁平化的标记(flat tokens),即仅仅将其作为独立的文本单元处理。这种处理方式忽略了 ICD 编码系统中固有的、具有临床意义的层级结构。
ICD 编码体系并非简单的列表,而是包含了疾病家族、子类别以及细粒度诊断细节的树状结构。例如,从大类疾病到具体亚型,每一层都蕴含着丰富的临床语义信息。然而,现有的 EHR 表示学习方法并未显式地利用这一现成的层级结构,导致模型在捕捉疾病之间的语义关联和泛化能力上存在不足。
核心内容
本研究以 ICD-10-CM 的层级结构作为临床表示学习的一种通用归纳偏置(inductive bias),深入探讨了如何将这种层级信息整合到 EHR 基础模型中。研究主要调查了两种互补的机制来融入层级信息:
-
基于 Transformer 的序列增强: 在 BERT 风格的 Transformer 架构中,通过在诊断序列中增加对应于 ICD 层级不同级别的标记(tokens),来增强模型对层级结构的感知。这种方法旨在让模型在自注意力机制中直接捕捉到代码间的层级关系。
-
基于图的表示注入: 在基于图的代码表示中,通过结合诊断共现结构(diagnosis co-occurrence structure)与层级感知边(hierarchy-aware edges),将层级信息注入到图结构中。这种方法利用图神经网络的优势,同时捕捉临床共现模式和固有的编码层级。
为了评估显式层级编码的有效性,研究从多个维度进行了实验:
- 下游预测性能:显式层级是否提升了预测精度。
- 层级效用分析:确定 ICD 层级中的哪一级别对模型最有用。
- 跨数据集迁移能力:层级编码是否改善了模型在不同数据集之间的迁移表现。
- 嵌入相似度结构:层级如何重塑嵌入空间中的相似性结构。
实验在两个大规模真实世界临床数据集上进行:
- MIMIC-IV:用于预训练和域内(in-domain)评估。
- eICU:用于通过冻结编码器探测(frozen encoder probing)来评估跨数据集迁移能力。
研究结果表明,显式编码 ICD 层级在域内和跨数据集设置下均优于扁平的代码表示。此外,研究还揭示了一个重要发现:最有用的层级级别取决于具体的任务类型和建模方法。
关键要点
- 层级结构被忽视的现状:现有 EHR 基础模型通常将 ICD 代码视为扁平标记,未能利用其内在的临床层级结构(疾病家族、子类别、细粒度细节)。
- 两种整合机制:
- 序列层面:在 Transformer 输入中增加对应 ICD 层级不同级别的标记。
- 图结构层面:在图表示中结合诊断共现边与层级感知边。
- 评估维度全面:不仅评估预测性能,还分析了层级级别的有效性、跨数据集迁移能力以及嵌入空间的结构变化。
- 实验验证充分:使用 MIMIC-IV 进行预训练和域内评估,使用 eICU 进行跨数据集迁移评估,确保结论的稳健性。
- 层级编码的普适优势:显式编码 ICD 层级在域内和跨数据集场景中均优于扁平表示,证明了层级感知的 EHR 表示学习的收益具有通用性。
- 层级效用的情境依赖性:最有用的 ICD 层级级别并非固定不变,而是依赖于具体的下游任务和所采用的建模方法。
意义与影响
这项研究强调了在构建 EHR 基础模型时,显式利用现有编码系统层级结构的重要性。通过引入 ICD-10-CM 的层级作为归纳偏置,研究证明了这种方法能够显著提升模型的表示学习能力,不仅在域内任务中表现更好,还能增强模型在不同临床数据集之间的迁移泛化能力。
这一发现对医疗人工智能领域具有深远影响:
- 提升模型可解释性与临床相关性:通过利用临床已知的层级结构,模型的决策过程可能更贴近医生的临床思维逻辑。
- 优化数据效率:显式的层级结构可以作为额外的信号,帮助模型在数据有限的情况下更好地捕捉语义关联。
- 指导模型设计:研究指出最有用的层级级别取决于任务和建模方式,这为未来设计更高效的 EHR 模型提供了指导,即需要根据具体应用场景选择或调整层级信息的注入方式。
总之,该工作展示了层级感知的 EHR 表示学习是一个具有广泛适用性的方向,为开发更强大、更通用的医疗基础模型提供了新的思路和技术路径。
