技术博客arXiv cs.CL·7 小时前

零样本智能体工作流实现肺部病理信息高效提取

原标题：Prompt, Plan, Extract: Zero-Shot Agentic LLMs Workflows for Lung Pathology Extraction from Clinical Narratives

速览

针对病理报告手动提取耗时且易错的问题，研究提出一种零样本智能体工作流。该方案利用五个开源生成式大模型，从肺部切除病理报告中提取13项关键临床字段。实验显示，最佳模型在无需任务特定训练的情况下，实现了0.893的Micro-F1分数，接近监督基线水平。这表明开源零样本智能体大模型是提取肺部病理信息的高性价比解决方案。

AI 深度解读

Prompt, Plan, Extract: Zero-Shot Agentic LLMs Workflows for Lung Pathology Extraction from Clinical Narratives

背景

在癌症分期和肿瘤登记数据的构建中，从病理报告中提取结构化信息至关重要。然而，大量的关键临床数据仍然嵌入在非结构化的叙事性报告（narrative reports）中。传统的处理方式依赖于人工提取，这不仅劳动密集，而且极易出错。

为了解决这一问题，传统的监督式自然语言处理（NLP）流水线通常采用全监督的命名实体识别（NER）和关系抽取（RE）技术。尽管这些方法在特定任务上表现良好，但它们存在两个显著的痛点：

高昂的标注成本：需要大量经过专业训练的人员进行手动数据标注。
级联失败风险：如果上游的实体识别出现遗漏或错误，下游的关系抽取和最终结果将受到严重影响，导致整个流程失效。

随着生成式大语言模型（LLMs）的兴起，零样本（Zero-Shot）和智能体（Agentic）工作流为这一领域提供了新的可能性。本研究旨在探索利用开源生成式 LLMs，通过零样本智能体工作流，从肺切除病理报告中提取美国病理学家协会（CAP）综合字段数据，并评估其相对于传统监督基线模型的性能。

核心内容

本研究提出并评估了一种零样本、基于智能体（agentic）的工作流，用于从肺切除病理报告中提取结构化信息。研究团队重点评估了五种开源生成式大语言模型（LLMs），旨在填充 13 个美国病理学家协会（CAP）的综合字段。

方法论与评估框架

任务定义：从肺切除病理报告的叙事文本中，自动提取并结构化 13 个关键的 CAP 综合字段。
模型对比：
- 基线模型：采用最先进的监督式 GatorTron NER-RE 流水线作为对比基准。
- 实验模型：五种开源生成式 LLMs，采用零样本智能体工作流。
评估标准：使用一种新颖的、与肿瘤登记标准对齐的评估框架，主要指标为 Micro-F1 分数。

实验结果

研究结果显示，尽管零样本方法无需针对特定任务进行训练，但其性能表现强劲：

基线模型表现：监督式 GatorTron NER-RE 基线模型达到了 Micro-F1 0.960 的高分，体现了传统监督方法在特定领域任务上的强大能力。
最佳零样本模型表现：在所有测试的零样本模型中，表现最佳的是 GPT-OSS-20B（注：此处保留原文模型名称，指代参与评估的特定开源或特定架构模型），其达到了 Micro-F1 0.893 的成绩。
召回率分析：最佳零样本模型的召回率（Recall）高达 0.949，表明其在识别和提取关键实体方面的敏感度非常高，极少遗漏重要信息。
复杂关系提取：该零样本工作流能够准确提取复杂的临床关系，例如“病理分期”（Pathologic Stage），而无需进行任何任务特定的微调或训练。

工作流程机制

虽然原文未详细展开代码实现，但标题 "Prompt, Plan, Extract"（提示、规划、提取）暗示了智能体工作流的核心逻辑：

Prompt（提示）：通过精心设计的提示词引导 LLM 理解任务目标。
Plan（规划）：智能体自主规划提取步骤，分解复杂的病理报告结构。
Extract（提取）：执行具体的信息抽取动作，生成结构化数据。

关键要点

零样本可行性：无需针对肺病理报告进行特定任务训练，开源 LLMs 即可实现高质量的信息提取。
性能差距缩小：最佳零样本模型（Micro-F1 0.893）与最先进的监督基线（Micro-F1 0.960）之间的差距仅为 0.067，考虑到零样本方法免去了昂贵的标注和微调成本，这一性能表现极具竞争力。
高召回率优势：最佳零样本模型实现了 0.949 的高召回率，这对于医疗诊断至关重要，因为漏诊（False Negative）的后果往往比误诊更为严重。
复杂关系处理能力：该方法不仅能提取简单实体，还能准确处理如“病理分期”等需要上下文理解的复杂关系。
成本效益显著：相比传统监督学习需要大量人工标注和计算资源进行微调，零样本智能体工作流提供了一种低成本的替代方案。

意义与影响

这项研究对医疗信息学和人工智能应用具有深远的影响：

降低医疗数据标准化门槛：肿瘤登记和癌症分期依赖于高度标准化的数据。本研究证明，利用现有的开源 LLMs 和智能体工作流，医疗机构可以以较低的成本实现病理数据的自动化结构化，无需依赖昂贵的定制 NLP 管道。
解决数据孤岛问题：通过将非结构化的叙事性病理报告转化为结构化的 CAP 字段，有助于打破临床数据孤岛，促进大规模流行病学研究和精准医疗的发展。
推动零样本技术在垂直领域的应用：研究结果验证了零样本 LLMs 在专业医疗领域（如肺病理学）的潜力，表明在数据标注稀缺或成本高昂的场景下，智能体工作流可以作为传统监督方法的有效补充甚至替代。
提升临床工作效率：自动化提取减少了病理学家和研究人员手动录入数据的时间，使他们能够更专注于临床诊断和患者护理，同时减少了人为错误。

总之，"Prompt, Plan, Extract" 工作流展示了一种高效、低成本且高精度的路径，用于从复杂的临床叙事中提取关键病理信息，为未来医疗 AI 系统的部署提供了新的范式。

查看原文 →arxiv.org