技术博客arXiv cs.CL·7 天前

BioELX：基于别名检索与大语言模型排序的跨语言生物医学实体链接

原标题：BioELX: Cross-lingual Biomedical Entity Linking via Alias-based Retrieval and LLM Ranking

速览

针对跨语言生物医学实体链接中训练数据稀缺及泛化能力弱的问题，研究提出BioELX框架。该方法无需任务特定的标注语料，利用Wikidata多语言别名增强检索，并结合大语言模型进行上下文感知的消歧。实验表明，BioELX在多个基准测试中达到最先进水平，尤其显著提升了土耳其语、韩语等低资源语言的性能。

AI 深度解读

BioELX：基于别名检索与大模型排序的跨语言生物医学实体链接

背景

生物医学实体链接（Biomedical Entity Linking, BEL）是临床和生物医学自然语言处理（NLP）应用中的核心任务。其基本目标是将文本中提到的任何语言的实体名称（Mentions），映射到生物医学知识库（Knowledge Base, KB）中的唯一标识符。例如，将文本中的“心肌梗死”或“Myocardial Infarction”链接到 UMLS 或 MeSH 知识库中的特定概念 ID。

尽管 BEL 技术至关重要，但在实际落地中面临两大严峻挑战：

标注数据稀缺且昂贵：高质量的专家标注训练数据获取成本极高，尤其是对于低资源语言（Low-resource languages），数据匮乏问题更为突出。
现有系统的泛化能力不足：许多现有的跨语言 BEL 系统依赖于基于 SapBERT 的检索器。然而，SapBERT 的训练数据主要来源于知识库中的英文别名（Aliases）。这种以英语为中心的训练方式导致模型在处理未见过的非英语实体提及时表现不佳，且缺乏对上下文感知的消歧能力，难以在复杂的跨语言场景中实现精准匹配。

核心内容

为了解决上述痛点，研究团队提出了 BioELX，这是一个无需特定任务标注训练语料的跨语言生物医学实体链接框架。BioELX 采用两阶段架构，分别解决候选检索和上下文消歧的问题。

第一阶段：基于多语言别名的增强检索

在检索阶段，研究团队旨在提升跨语言候选实体的召回率。传统的 SapBERT 检索器因训练数据偏向英语而存在局限性。BioELX 通过引入 Wikidata 派生的多语言别名来丰富 SapBERT 的训练数据。

具体而言，利用 Wikidata 中丰富的多语言实体别名信息，对 SapBERT 模型进行增强训练。这一过程使得检索器能够理解多种语言中的实体变体，从而在处理非英语提及时，能够更准确地从知识库中检索出潜在的候选实体。这一改进显著提升了跨语言检索的覆盖面和准确性。

第二阶段：基于大语言模型（LLM）的上下文感知排序

在获得候选实体列表后，第二阶段专注于消歧（Disambiguation），即从多个候选实体中选出最匹配当前上下文的那个。传统方法通常需要监督训练数据来训练分类器或重排序模型，而 BioELX 采用了一种无监督的新范式：

LLM 排序器：利用预训练的大语言模型（LLM）作为排序器。
联合考虑上下文与候选：该排序器同时输入实体提及的上下文（Context）和候选实体（Candidate）的信息。
无需监督训练：通过利用 LLM 固有的语言理解和推理能力，系统能够直接判断哪个候选实体与上下文最契合，从而消除了对监督训练数据的依赖。

这种设计不仅降低了数据准备成本，还利用了 LLM 强大的泛化能力来处理复杂的语义消歧任务。

关键要点

零样本/少样本优势：BioELX 框架不需要任何特定任务的标注训练语料，解决了低资源语言数据匮乏的核心瓶颈。
多语言别名增强：通过整合 Wikidata 的多语言别名数据增强 SapBERT 检索器，有效改善了跨语言检索性能，特别是针对非英语实体。
LLM 驱动的无监督消歧：利用预训练 LLM 进行上下文感知的重排序，无需微调即可实现高精度的实体消歧。
SOTA 性能表现：在五个基准测试数据集上，BioELX 均取得了新的最先进（State-of-the-Art, SOTA）性能。
低资源语言显著提升：
- 在 XL-BEL 数据集上，平均 Recall@1 提升了 +19.2。
- 土耳其语（Turkish）提升 +21.6。
- 韩语（Korean）提升 +22.1。
- 泰语（Thai）提升 +30.8。
多领域稳健性：不仅在 XL-BEL 上表现优异，在 EMEA（+6.2）、Patent（+5.4）和 WikiMed-DE（+12.8）等其他数据集上也带来了持续且一致的改进。

意义与影响

BioELX 的提出对生物医学 NLP 领域具有重要的理论和实践意义：

打破语言壁垒：通过有效利用多语言别名和 LLM 的通用能力，BioELX 显著缩小了高资源语言（如英语）与低资源语言（如土耳其语、泰语）在生物医学信息提取上的性能差距。这使得全球范围内的生物医学文献挖掘更加公平和高效。
降低数据依赖：证明了在特定垂直领域任务中，结合强大的基础模型（如 SapBERT 和 LLM）与外部知识源（如 Wikidata），可以摆脱对昂贵人工标注数据的依赖。这为其他数据稀缺领域的 NLP 任务提供了可借鉴的范式。
提升临床与科研效率：更准确的跨语言实体链接意味着医生和研究人员可以更可靠地从多语言文献中提取结构化知识，加速药物发现、临床决策支持和全球公共卫生监测。
开源贡献：随着代码和资源的发布，BioELX 将为社区提供一个强大的基线工具，推动跨语言生物医学信息学的发展。

总之，BioELX 通过创新性地结合多语言知识增强检索与大模型无监督排序，为跨语言生物医学实体链接提供了一个高效、低成本且高性能的解决方案。

查看原文 →arxiv.org