技术博客arXiv cs.AI·2 小时前

开源大模型LLaMA 3.1可自动提取荷兰脑部MRI报告结构化信息

原标题：Automatic Extraction of Structured Information from Brain MRI Reports Using an Open-Weight Large Language Model

速览

本研究评估了开源大语言模型LLaMA 3.1在自动提取荷兰神经放射学报告中结构化信息方面的性能。结果显示，该模型在视觉评分、微出血检测及病灶位置文本相似度上表现出高准确率，但在数值变量提取上仍有挑战。通过少样本提示技术可显著提升数值提取效果，证明LLaMA 3.1在医疗报告自动化处理中具有巨大潜力。

AI 深度解读

利用开源大语言模型从脑部 MRI 报告中自动提取结构化信息

背景

放射学报告通常以非结构化自由文本的形式存在，这给大规模临床研究和数据整合带来了巨大挑战。自动从这些文本中提取结构化数据，对于推动基于真实世界证据的研究至关重要。尽管大型语言模型（LLMs）在自然语言处理领域表现出色，但针对特定语言（如荷兰语）和特定领域（如神经放射学）的性能评估仍然稀缺。

本研究旨在填补这一空白，重点评估开源权重的大型语言模型 LLaMA 3.1 在提取荷兰语神经放射学报告中的结构化信息方面的能力。研究特别关注了不同语言输入（原始荷兰语 vs. 英语翻译）以及少样本提示（few-shot prompting）策略对提取精度的影响，特别是在视觉评分、计数变量和自由文本描述方面的表现。

核心内容

1. 研究设计与数据基础

数据来源：研究分析了来自三级记忆诊所（tertiary memory clinic）的 947 份脑部 MRI 报告，时间跨度为 2016 年至 2021 年。所有报告均由顾问级神经放射学家撰写。
标注过程：经过培训的医学生负责标注 30 个变量。为了评估评分者间信度（inter-rater reliability），其中 100 份报告进行了双重标注。
评估模型：核心评估对象为开源权重模型 LLaMA 3.1。
实验变量：
- 语言：比较了直接使用荷兰语报告与将其翻译为英语后的表现。
- 提示策略：测试了零样本（zero-shot）与少样本（few-shot）提示，并在少样本中探索了不同的示例选择策略（如基于结构相似性的选择）。
评估指标：
- 分类变量：使用平衡准确率（balanced accuracy）。
- 计数变量：使用准确率和平均绝对误差（MAE）。
- 自由文本：使用文本相似度（text similarity）。
- 所有指标均在 947 份报告的 10 次随机划分中计算得出。

2. 主要结果

零样本性能表现优异： 在无需额外示例引导的情况下，LLaMA 3.1 在视觉评级评分（visual rating scores）上展现了极高的准确率：

内侧颞叶萎缩（Medial Temporal Atrophy）：左侧平均准确率为 90% [95%-CI: 77-100%]，右侧为 96% [95%-CI: 94-99%]。
全局皮层萎缩（Global Cortical Atrophy）：准确率为 87% [95%-CI: 83-91%]。
Fazekas 评分：准确率为 94% [95%-CI: 93-96%]。

病变检测与定位：

微出血（Microbleeds）：检测准确率为 93% [95%-CI: 92-95%]。
梗死（Infarcts）：提及检测准确率为 82% [95%-CI: 80-84%]。
病变位置：自由文本描述的文本相似度高达 0.95 [95%-CI: 0.95-0.96]，表明模型能很好地复述病变位置信息。

数值变量提取的挑战与改进：

初始表现：在提取具体数值（如微出血数量、梗死数量）时，零样本性能较低。微出血数量的准确率为 80% [95%-CI: 78-82%]，梗死数量为 66% [95%-CI: 63-68%]。
少样本提示的提升：引入基于结构相似性选择的少样本提示后，数值提取性能显著提升：
- 微出血数量准确率提升至 92% [95%-CI: 90-93%]。
- 梗死数量准确率提升至 81% [95%-CI: 77-85%]。

语言的影响： 将荷兰语报告翻译为英语后，模型的整体表现与直接使用荷兰语相当，表明语言障碍并非主要瓶颈，或者模型在英语语境下对翻译后的医学术语具有良好的泛化能力。

关键要点

开源模型具备临床级潜力：LLaMA 3.1 作为开源模型，在从荷兰语神经放射学报告中提取结构化数据方面表现出强大的能力，证明了开源 LLM 在特定医疗垂直领域的可用性。
视觉评分提取极为精准：对于标准化的视觉评级量表（如 Fazekas、内侧颞叶萎缩），零样本下的准确率普遍超过 85%，甚至接近 100%，适合直接用于自动化数据清洗。
数值提取需借助少样本学习：虽然定性描述和评分提取效果良好，但具体的计数变量（如病灶数量）在零样本下表现不佳。通过精心选择的少样本示例（few-shot prompting），可以显著改善数值提取的准确性。
翻译不影响核心性能：将非英语（荷兰语）报告翻译为英语并未导致性能下降，这为处理多语言医疗数据提供了灵活性，允许利用英语资源丰富的模型生态来处理其他语言的数据。
位置信息保留度高：模型在提取自由文本形式的病变位置时，保持了极高的文本相似度，说明其不仅能提取结构化字段，还能较好地保留非结构化描述的语义。

意义与影响

这项研究为医疗人工智能领域提供了重要的实证依据。首先，它证实了开源大语言模型（如 LLaMA 3.1）无需昂贵的专有模型授权，即可在复杂的医疗文本处理任务中达到高精度，降低了医疗机构部署自动化数据提取工具的成本门槛。

其次，研究揭示了 LLM 在不同类型医疗信息提取上的差异：对于标准化的视觉评分和定性描述，零样本即可胜任；而对于需要精确计数的数值变量，则需要通过少样本提示进行微调或引导。这一发现指导了后续系统的开发方向——即针对数值型变量设计更智能的示例检索机制。

最后，该研究拓展了 LLM 在非英语医疗环境中的应用边界。结果表明，通过翻译或直接处理，开源模型能够有效处理荷兰语等小众语言的放射学报告，这对于全球范围内利用 AI 整合多中心、多语言医疗数据具有积极的示范意义。未来，结合更先进的少样本策略，LLM 有望成为放射科工作流中不可或缺的数据结构化助手。

查看原文 →arxiv.org