技术博客arXiv cs.CL·7 天前

RAG-Coding：利用结构化外部知识增强大语言模型医疗编码

原标题：RAG-Coding: Enhancing LLM Medical Coding with Structured External Knowledge

速览

本文提出RAG-Coding，一种通过编排四个大语言模型智能体并利用外部结构化知识进行自动ICD-10-CM编码的方法。该方法通过检索和交叉引用官方编码表及指南，显著提升了编码准确性和临床合规性。实验表明，RAG-Coding在MDACE数据集上的表现优于现有最佳基线，并发布了更新版MDACE-2025数据集以支持最新标准评估。

AI 深度解读

RAG-Coding：利用结构化外部知识增强大语言模型的医疗编码能力

背景

医疗编码（Medical Coding）是将临床诊断、手术操作等医疗信息转化为标准化代码（如 ICD-10-CM/PCS）的过程，是医疗保险报销、流行病学统计和医疗质量评估的基础。准确的医疗编码高度依赖于对权威资源（如 ICD 表格列表和编码指南）的查阅。

然而，现有的基于大语言模型（LLM）的自动化编码方法主要依赖模型内部的预训练知识。这种依赖带来了两个显著痛点：

幻觉问题：LLM 容易生成看似合理但实际错误的编码。
时效性滞后：医疗编码指南（如 ICD 版本更新）频繁变动，而 LLM 的内部知识难以实时同步最新指南，导致模型性能随时间推移而下降。

为了解决这些问题，研究团队提出了 RAG-Coding，一种无需训练（training-free）的智能体（agentic）方法，旨在通过整合结构化外部知识来增强 LLM 的医疗编码能力。

核心内容

1. RAG-Coding 方法论

RAG-Coding 的核心创新在于对传统检索增强生成（RAG）在医疗编码场景下的重构，主要包含两个关键步骤：

表格列表编码为知识图谱：传统的 RAG 方法通常直接检索原始文本，但在医疗编码中，代码之间存在复杂的层级关系（如章节、类别、亚目）和指令性关系。RAG-Coding 将 ICD 表格列表（tabular list）编码为一个知识图谱（Knowledge Graph），显式地捕捉代码间的层级结构和操作指令。这使得模型能够理解代码的逻辑上下文，而不仅仅是语义相似性。
指南蒸馏为代码特定摘要：对于冗长的编码指南，RAG-Coding 不采用直接检索原始文本的方式，而是将其**蒸馏（distill）**为简洁的、与特定代码相关的摘要。这种方法减少了噪声，提供了更精准、更具操作性的指导信息。
智能体架构：该方法采用智能体（Agentic）工作流，无需对 LLM 进行微调（training-free），即可通过外部知识增强现有 LLM 的能力。

2. MDACE-2025 数据集

为了支持本研究并评估模型在最新指南下的表现，作者引入了 MDACE-2025。这是基于原有的 MDACE 数据集，依据 2025 ICD-10-CM/PCS 指南 进行专家重新标注的版本。MDACE-2025 增加了以下关键信息：

代码排序（Code Sequencing）：明确标注了多个编码时的优先顺序。
理由注释（Justification Comments）：提供了编码选择的专家解释，有助于模型学习推理过程。

3. 实验结果

研究在 MDACE 和 MDACE-2025 两个数据集上进行了广泛评估，涵盖五种不同的 LLM 后端（Backbones）。

在 MDACE 数据集上：
- RAG-Coding 在微平均 F1 分数（micro-F1）上比最佳的 LLM 基线方法高出 3% 至 13%。
- 其微平均和宏平均 F1 分数（macro-F1）与监督学习（Supervised）的最先进（SOTA）方法相当。
- 在召回率（Recall）上提升了 11%，尽管精确率（Precision）下降了 6%。这表明该方法在减少漏检方面表现优异，适合需要高覆盖率的医疗场景。
在 MDACE-2025 数据集上：
- RAG-Coding 超越了所有基线方法。
- 这一结果证明了该方法能够有效泛化到更新后的指南，解决了 LLM 知识滞后问题。
消融实验（Ablations）：
- 消融实验证实了各组件带来的逐步增益，强调了将结构化外部知识整合到基于 LLM 的医疗编码中的重要性。

关键要点

无需训练：RAG-Coding 是一种无需微调（training-free）的方法，可以直接增强现有的 LLM 能力，降低了部署成本。
结构化知识优于原始文本：将 ICD 表格转化为知识图谱，并将指南蒸馏为代码特定摘要，比直接检索原始文本更有效，能更好地捕捉代码间的逻辑关系。
解决时效性问题：通过外部结构化知识，模型能够适应最新的编码指南（如 2025 ICD-10-CM/PCS），避免了内部知识的过时问题。
性能显著提升：在多种 LLM 后端上，RAG-Coding 在微平均 F1 上优于最佳 LLM 基线 3-13%，并达到了与监督学习 SOTA 相当的水平。
高召回率优势：虽然精确率略有下降（-6%），但召回率大幅提升（+11%），这在医疗编码中至关重要，因为漏诊/漏编码的后果通常比误编码更严重。
新数据集 MDACE-2025：提供了基于最新指南的专家重新标注数据，包含代码排序和理由注释，为未来研究提供了宝贵资源。

意义与影响

RAG-Coding 的提出标志着医疗 AI 从“依赖内部知识”向“依赖实时、结构化外部知识”的重要转变。

提升医疗数据质量：通过减少幻觉和提高编码准确性，该方法有助于提高电子健康记录（EHR）数据的标准化程度，从而改善医疗数据分析、保险理赔和公共卫生研究的可靠性。
降低部署门槛：作为一种无需训练的方法，RAG-Coding 使得医院和医疗机构能够利用现有的开源或商用 LLM，结合最新的编码指南快速部署自动化编码系统，无需承担高昂的微调成本和算力开销。
应对指南频繁更新：医疗编码指南的频繁更新一直是自动化系统的痛点。RAG-Coding 证明了通过外部知识注入的方式，可以灵活、低成本地保持模型与最新指南的一致性。
推动智能体在垂直领域的应用：该研究展示了智能体（Agentic）架构结合结构化知识图谱在复杂专业任务中的潜力，为其他需要严格逻辑推理和实时知识更新的领域（如法律、金融合规）提供了参考范式。

总之，RAG-Coding 不仅在技术上实现了性能突破，更在工程实践上提供了一种可持续、可维护的医疗编码自动化解决方案。

查看原文 →arxiv.org