技术博客arXiv cs.CL·2 小时前

大模型少样本生物医学关系抽取：监督学习可行替代方案

原标题：Few-Shot Biomedical Relation Extraction with Large Language Models: A Viable Alternative to Supervised Learning?

速览

研究对比了基于大语言模型的少样本生物医学关系抽取中，成对分类与联合生成两种任务形式。实验显示联合生成在精度和效率上更优，且基于提示的方法在宏观F1指标上超越了监督基线，尤其在罕见关系类型上表现突出。这表明大模型在低资源场景下具有替代监督学习的潜力，但需关注关系定义的清晰度。

生物医学关系抽取（BioRE）是将非结构化的生物医学文献转化为结构化知识的关键步骤。然而，现有的主流方法大多依赖于在昂贵的人工标注数据集上训练的监督模型。这种依赖性严重限制了模型的可扩展性，以及其在不同关系类型和领域之间的适应能力。

随着大语言模型（LLMs）的兴起，基于提示（Prompt-based）的学习为低资源场景下的自然语言处理任务提供了新的可能性。本文旨在探讨利用 LLMs 进行 Few-Shot（少样本）生物医学关系抽取的可行性，并评估其是否足以成为传统监督学习的替代方案。

本研究深入调查了基于提示的大语言模型在生物医学关系抽取中的应用，并重点比较了两种不同的任务表述方式（Task Formulations）：

研究使用 BioREDirect 数据集进行了实验。该数据集用于评估模型在少样本设置下的性能，并与传统的监督基线模型进行对比。

实验结果显示，两种任务表述方式存在明显的精度-召回率权衡（Precision-Recall Trade-off）：

在微平均 F1 分数（Micro-F1）指标上：

研究指出，这一性能差距主要归因于数据集中存在一个定义模糊的关系类型。当移除或修正这一模糊关系后，差距有所缩小。

为了更全面地评估模型在不平衡数据集上的表现，研究引入了宏平均 F1 分数（Macro-F1），该指标更能反映各类别（尤其是稀有关系类型）的性能：

少样本可行性：基于提示的大语言模型在生物医学关系抽取的少样本场景中展现出显著潜力，能够以较低的数据标注成本实现具有竞争力的性能。
任务表述的影响：
- 若目标是最大化召回率，成对分类是更优选择。
- 若目标是提高精度并降低计算成本，联合生成更具优势。
评估指标的选择至关重要：
- 使用微平均 F1（Micro-F1）时，监督学习基线仍占优势（0.56 > 0.44），但这主要受数据集中常见关系类型的支配。
- 使用宏平均 F1（Macro-F1）时，基于提示的 LLMs 反而超越了监督基线（0.45 > 0.38），这表明 LLMs 在处理类别不平衡和稀有关系类型方面具有独特优势。
关系定义的质量决定上限：性能差距很大程度上源于数据集中存在“定义模糊的关系类型”。这强调了在构建生物医学知识图谱时，关系模式（Relation Schemas）必须清晰、无歧义的重要性。
计算效率：联合生成方法在保持高精度的同时，提供了更高的计算效率，这对于大规模文献处理具有实际意义。

这项研究对生物医学信息学领域具有重要的启示意义：

降低数据依赖：证明了在缺乏大规模标注数据的情况下，利用预训练大语言模型进行关系抽取是可行的。这为解决生物医学领域标注数据稀缺且昂贵的问题提供了新路径。
关注长尾分布：传统监督模型往往倾向于预测多数类，而基于提示的 LLMs 在稀有关系类型上表现更佳。这对于全面理解生物医学文献、发现罕见但重要的生物医学关联至关重要。
方法论的反思：研究结果提醒从业者，在评估 NLP 模型性能时，不能仅依赖微平均指标。在类别不平衡的生物医学数据中，宏平均指标更能反映模型的真实泛化能力和公平性。
数据工程的重要性：模型性能的瓶颈有时不在于算法本身，而在于数据标注的质量（如关系定义的模糊性）。未来工作应更加注重关系本体的清晰定义和标准化。

综上所述，虽然基于提示的 LLMs 在绝对精度上尚未完全超越顶级监督模型，但在少样本设置、稀有关系处理以及计算效率方面展现了独特的优势，使其成为生物医学关系抽取中一种极具潜力的替代方案。