← 返回信息流
技术博客arXiv cs.CL·2 小时前

大模型少样本生物医学关系抽取:监督学习可行替代方案

原标题:Few-Shot Biomedical Relation Extraction with Large Language Models: A Viable Alternative to Supervised Learning?

速览

研究对比了基于大语言模型的少样本生物医学关系抽取中,成对分类与联合生成两种任务形式。实验显示联合生成在精度和效率上更优,且基于提示的方法在宏观F1指标上超越了监督基线,尤其在罕见关系类型上表现突出。这表明大模型在低资源场景下具有替代监督学习的潜力,但需关注关系定义的清晰度。

AI 深度解读

Few-Shot 生物医学关系抽取与大语言模型:监督学习的可行替代方案?

背景

生物医学关系抽取(BioRE)是将非结构化的生物医学文献转化为结构化知识的关键步骤。然而,现有的主流方法大多依赖于在昂贵的人工标注数据集上训练的监督模型。这种依赖性严重限制了模型的可扩展性,以及其在不同关系类型和领域之间的适应能力。

随着大语言模型(LLMs)的兴起,基于提示(Prompt-based)的学习为低资源场景下的自然语言处理任务提供了新的可能性。本文旨在探讨利用 LLMs 进行 Few-Shot(少样本)生物医学关系抽取的可行性,并评估其是否足以成为传统监督学习的替代方案。

核心内容

本研究深入调查了基于提示的大语言模型在生物医学关系抽取中的应用,并重点比较了两种不同的任务表述方式(Task Formulations):

  1. 成对分类(Pairwise Classification):针对实体对单独预测关系。
  2. 联合生成(Joint Generation):在一次模型调用中提取多个关系。

实验设置与数据集

研究使用 BioREDirect 数据集进行了实验。该数据集用于评估模型在少样本设置下的性能,并与传统的监督基线模型进行对比。

主要发现:精度与召回率的权衡

实验结果显示,两种任务表述方式存在明显的精度-召回率权衡(Precision-Recall Trade-off):

  • 成对分类:实现了更高的召回率(Recall),能够捕捉到更多的潜在关系。
  • 联合生成:具有更高的精度(Precision)和计算效率,能够在单次调用中更准确地提取多重关系。

性能对比:微平均 F1 分数

在微平均 F1 分数(Micro-F1)指标上:

  • 最佳表现的模型达到了 0.44 的得分。
  • 这一结果显著优于之前的少样本研究结果(0.34)。
  • 然而,它仍然低于传统的监督学习基线(0.56)。

研究指出,这一性能差距主要归因于数据集中存在一个定义模糊的关系类型。当移除或修正这一模糊关系后,差距有所缩小。

性能对比:宏平均 F1 分数与长尾效应

为了更全面地评估模型在不平衡数据集上的表现,研究引入了宏平均 F1 分数(Macro-F1),该指标更能反映各类别(尤其是稀有关系类型)的性能:

  • 基于提示的方法在宏平均 F1 分数上超越了监督学习基线(0.45 vs. 0.38)。
  • 特别是在处理稀有关系类型时,基于提示的 LLMs 表现尤为出色。

关键要点

  • 少样本可行性:基于提示的大语言模型在生物医学关系抽取的少样本场景中展现出显著潜力,能够以较低的数据标注成本实现具有竞争力的性能。
  • 任务表述的影响
    • 若目标是最大化召回率,成对分类是更优选择。
    • 若目标是提高精度并降低计算成本,联合生成更具优势。
  • 评估指标的选择至关重要
    • 使用微平均 F1(Micro-F1)时,监督学习基线仍占优势(0.56 > 0.44),但这主要受数据集中常见关系类型的支配。
    • 使用宏平均 F1(Macro-F1)时,基于提示的 LLMs 反而超越了监督基线(0.45 > 0.38),这表明 LLMs 在处理类别不平衡和稀有关系类型方面具有独特优势。
  • 关系定义的质量决定上限:性能差距很大程度上源于数据集中存在“定义模糊的关系类型”。这强调了在构建生物医学知识图谱时,关系模式(Relation Schemas)必须清晰、无歧义的重要性。
  • 计算效率:联合生成方法在保持高精度的同时,提供了更高的计算效率,这对于大规模文献处理具有实际意义。

意义与影响

这项研究对生物医学信息学领域具有重要的启示意义:

  1. 降低数据依赖:证明了在缺乏大规模标注数据的情况下,利用预训练大语言模型进行关系抽取是可行的。这为解决生物医学领域标注数据稀缺且昂贵的问题提供了新路径。
  2. 关注长尾分布:传统监督模型往往倾向于预测多数类,而基于提示的 LLMs 在稀有关系类型上表现更佳。这对于全面理解生物医学文献、发现罕见但重要的生物医学关联至关重要。
  3. 方法论的反思:研究结果提醒从业者,在评估 NLP 模型性能时,不能仅依赖微平均指标。在类别不平衡的生物医学数据中,宏平均指标更能反映模型的真实泛化能力和公平性。
  4. 数据工程的重要性:模型性能的瓶颈有时不在于算法本身,而在于数据标注的质量(如关系定义的模糊性)。未来工作应更加注重关系本体的清晰定义和标准化。

综上所述,虽然基于提示的 LLMs 在绝对精度上尚未完全超越顶级监督模型,但在少样本设置、稀有关系处理以及计算效率方面展现了独特的优势,使其成为生物医学关系抽取中一种极具潜力的替代方案。

查看原文 →arxiv.org