技术博客arXiv cs.CL·3 小时前

实证研究：后训练能否让大模型成为优秀医疗编码员

原标题：Can Post-Training Turn LLMs into Good Medical Coders? An Empirical Study of Generative ICD Coding

速览

自动化ICD编码是医疗核心任务，但大模型常被视为弱编码员。本研究通过受控实验发现，仅靠提示评估低估了大模型潜力。监督微调带来主要能力跃升，强化学习进一步优化，证明瓶颈在于模型如何适配全分类召回。

AI 深度解读

后训练能否将大语言模型转化为优秀的医疗编码员？生成式 ICD 编码的实证研究解读

背景

自动化国际疾病分类（ICD）编码是医疗领域的核心任务，直接服务于医保结算、流行病学统计以及临床决策支持系统。随着生成式大语言模型（LLMs）的兴起，业界普遍关注其在这一垂直领域的应用潜力。

然而，现有的主流观点往往认为 LLMs 是“弱”医疗编码员。这一结论主要源于基于推理时（inference-time）设置的评估，例如提示工程（prompting）、检索增强生成（RAG）、重排序或工具调用等场景。在这些设置中，LLMs 的表现确实不尽如人意。

但一个关键问题被长期忽视：任务特定的后训练（post-training）在其中的作用究竟如何？ 目前缺乏在统一协议和指标体系下，对判别式基线模型与 LLM 编码员进行系统性对比的研究。特别是基于强化学习（RL）的后训练在生成式 ICD 编码中的应用，尚属研究空白。

核心内容

本研究提出了一项受控的实证研究，旨在评估后训练对生成式 ICD 编码的影响。研究团队在统一的协议和指标集下，对比了判别式基线模型与 LLM 编码员在三种不同训练/适应阶段的表现：提示工程（Prompting）、监督微调（Supervised Fine-Tuning, SFT）和强化学习（Reinforcement Learning, RL）。

1. 研究方法与创新

全面对比协议：研究不仅比较了最终性能，还拆解了从“零样本提示”到“SFT”再到“RL 优化”的完整能力演进路径。
引入 PHI 诊断课程：为了进一步挖掘模型潜力，研究团队引入了 PHI（一种诊断性课程），该课程扩展了 GRPO（Group Relative Policy Optimization，组相对策略优化）算法，专门用于优化模型在“漏码”（missed-code）案例上的表现。这是已知首个评估基于 RL 的后训练在生成式 LLM 编码员中应用的 ICD 编码研究。

2. 实验发现与能力演进

研究结果揭示了 LLM 在 ICD 编码任务中能力的真实分布：

提示工程严重低估潜力：仅通过提示工程进行评估，会大幅低估 LLMs 在 ICD 编码任务上的潜在能力。这意味着许多关于 LLM “不适合医疗编码”的早期结论可能是由于评估方法不当造成的。
SFT 带来主要能力跃升：监督微调（SFT）是提升模型性能的关键步骤，提供了从“通用语言模型”到“专业编码员”的主要能力跨越。
GRPO 超越 SFT：在 SFT 的基础上，引入 GRPO 等强化学习技术，进一步提升了模型对完整代码集（code-set）的预测能力，特别是在召回率方面。
PHI 针对宏观性能优化：通过 PHI 诊断课程，模型在宏观层面（macro-level）的性能上获得了针对性的增益，有效减少了漏码情况。

3. 核心结论

研究指出，LLMs 在 ICD 编码任务中的主要瓶颈并非生成式架构本身（generative formulation），而在于模型如何被适配和优化以实现全分类法（full-taxonomy）的召回。通过适当的后训练策略，LLMs 可以成为高效的医疗编码工具。

关键要点

范式转变：从“LLMs 是弱编码员”的刻板印象，转向“后训练策略决定编码能力”的实证认知。
SFT 是基石：监督微调是将通用 LLM 转化为专业医疗编码员的最关键步骤，其贡献远大于单纯的提示工程。
RL 的增量价值：基于 GRPO 的强化学习后训练能在 SFT 基础上进一步提升代码集预测的准确性。
PHI 诊断课程：新提出的 PHI 方法通过扩展 GRPO，专门解决漏码问题，显著提升了宏观性能指标。
评估偏差：仅依赖推理时设置（如 prompting）的评估存在严重偏差，无法反映 LLM 经过后训练后的真实潜力。
开源贡献：研究团队已公开代码、数据划分（data splits）和检查点（checkpoints），促进了该领域的复现与后续研究。

意义与影响

这项研究对医疗 AI 和大模型应用具有重要的理论与实践意义：

纠正行业认知偏差：它挑战了当前关于 LLM 在垂直领域（特别是高精度要求的医疗领域）表现不佳的普遍看法，指出问题往往出在训练和优化策略上，而非模型架构本身。
确立后训练的重要性：研究强调了任务特定的后训练（特别是 SFT 和 RL）在释放 LLM 潜力中的核心作用，为医疗垂直领域的模型微调提供了实证依据和方法论参考。
推动自动化编码落地：通过证明 LLMs 在经过适当训练后可以成为优秀的编码员，本研究为医院和医疗机构采用自动化 ICD 编码系统、降低人力成本并提高编码一致性提供了技术可行性支持。
方法论创新：引入 PHI 诊断课程和 GRPO 扩展，为处理高维、稀疏标签的分类任务（如医疗编码）提供了新的优化思路，可能推广至其他类似的复杂分类场景。

总之，该研究不仅填补了基于 RL 的后训练在 ICD 编码领域的应用空白，更为如何正确评估和优化 LLM 在关键任务中的表现提供了重要的实证框架。

查看原文 →arxiv.org