← 返回信息流
技术博客arXiv cs.CL·3 天前

通用还是专用嵌入?非英语临床编码搜索实证研究

原标题:Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages

速览

针对非英语临床检索中召回率下降的问题,研究探索利用大型生成式语言模型作为数据工厂来弥补差距。团队基于西班牙语生物医学编码器,使用Gemini生成的合成数据进行了两阶段检索器微调。实验表明,该方法在多种语言上显著提升了检索性能,为构建领域特定医疗检索器提供了开放方案。

AI 深度解读

通用还是专用嵌入?非英语临床编码检索的实证研究

背景

在自然语言处理(NLP)领域,用于语义搜索的句子嵌入(Sentence-embedding)模型绝大多数是在英语语料库上进行开发和评估的。然而,当这些模型被应用于其他语言——特别是涉及 ICD-10-CM(国际疾病分类第十版临床修改版)或 CIE-10 编码的临床检索任务时,其召回率(Recall)往往会显著下降。这种性能退化往往被聚合基准测试(Aggregate Benchmarks)所掩盖,导致在非英语临床场景下的实际表现被高估。

与此同时,大型生成式语言模型(LLMs)作为“数据工厂”的能力日益受到关注。本研究旨在探讨是否可以利用 LLM 生成合成数据,来填补非英语临床检索中的性能缺口,并比较通用嵌入模型与特定领域嵌入模型在该任务中的优劣。

核心内容

本研究构建了一个两阶段检索器(Two-stage Retriever),其架构由双编码器(Bi-encoder)作为初始检索器,后接交叉编码器(Cross-encoder)作为重排序器(Reranker)。该系统的核心创新在于利用 Gemini 生成的合成数据进行微调,以解决多语言临床编码检索中的数据稀缺问题。

1. 数据构建与模型微调

  • 基础模型:研究以西班牙语生物医学编码器 PlanTL-GOB-ES/bsc-bio-ehr-es 为起点。
  • 合成数据:利用 Gemini 生成了涵盖六种语言的合成数据对,包括英语、西班牙语、加泰罗尼亚语、意大利语、葡萄牙语和法语。
  • 微调目标:针对 ICD-10-CM / CIE-10 编码检索任务进行监督微调。

2. 实验设置与对比基线

研究将构建的两阶段检索器与以下基线模型进行了对比:

  • BioBERT-ST:一种经过微调的生物医学嵌入模型。
  • 未微调的西班牙语编码器:即基础模型 PlanTL-GOB-ES/bsc-bio-ehr-es

3. 主要实验结果

双编码器阶段(Bi-encoder alone):

  • 在不使用英语生物医学预训练数据的情况下,仅使用合成数据微调后的双编码器在平均倒数排名(MRR)上达到了 0.876,略高于 BioBERT-ST 的 0.866。
  • 在召回率指标上,该模型表现更佳:R@3 为 0.650(优于 BioBERT-ST 的 0.626),R@5 为 0.804(优于 BioBERT-ST 的 0.790)。

两阶段检索阶段(加入交叉编码器重排序):

  • 加入交叉编码器重排序器后,聚合 R@5 提升至 0.822。
  • 在五种语言中的四种语言上取得了显著优势:
    • 西班牙语:+0.017
    • 加泰罗尼亚语:+0.033
    • 法语:+0.018
    • 葡萄牙语:+0.037
  • 代价:英语性能出现轻微回落(Regression)。

4. 临床可接受性与关键发现

研究指出,英语性能的轻微下降在临床应用中是可以接受的,因为非英语语言的性能提升具有极高的临床价值。例如,在葡萄牙语任务中,该模型达到了 R@5 = 0.829,而 BioBERT-ST 仅为 0.714,差距巨大。

此外,研究量化了学习增益:MRR 从 0.755 提升至 0.876,增幅达 15.9%,且仅使用了约 19,500 对合成数据。

关键要点

  • LLM 作为数据工厂的有效性:利用 Gemini 生成合成数据,可以在没有大量真实标注数据的情况下,显著提升非英语临床检索模型的性能。
  • 通用 vs. 专用嵌入的权衡:虽然 BioBERT-ST 是强大的专用基线,但通过 LLM 合成数据微调的通用/多语言嵌入模型(基于西班牙语生物医学基础模型)在多语言场景下展现出了更强的适应性和更高的召回率。
  • 两阶段架构的优势:双编码器负责高效检索,交叉编码器负责精细重排序,这种组合在多个非英语语言上显著提升了 R@5 指标。
  • 数据效率极高:仅需约 19,500 对合成数据,即可实现 MRR 15.9% 的大幅提升,证明了合成数据在微调中的高杠杆效应。
  • 语言特异性增益:性能提升在不同语言间分布不均,但在葡萄牙语、加泰罗尼亚语和法语上尤为显著,而英语性能略有牺牲,这在多语言临床部署中是合理的权衡。
  • 开源食谱(Open Recipe):研究提供了一套完整的方法论,展示了如何从 LLM 生成的数据构建特定领域的医疗检索器,为其他低资源语言或特定领域提供了可复现的路径。

意义与影响

这项研究对医疗人工智能和多语言 NLP 领域具有深远的影响:

  1. 打破英语中心主义:它揭示了当前临床检索模型在非英语环境下的局限性,并证明通过合成数据可以弥合这一差距,促进了医疗 AI 在全球范围内的公平性和可用性。
  2. 降低数据获取门槛:医疗数据通常涉及隐私且标注成本高昂。本研究证实了利用 LLM 生成高质量合成数据来微调检索模型是可行且高效的,为其他缺乏大规模标注数据的医疗垂直领域提供了新的解决方案。
  3. 优化临床工作流:ICD-10 编码是医疗记录、保险报销和流行病学研究的基础。提高非英语环境下的编码检索准确率,可以直接提升临床医生的工作效率,减少编码错误,从而改善医疗数据的质量和可用性。
  4. 方法论贡献:提出的“LLM 生成数据 + 两阶段检索器微调”范式,不仅适用于临床编码,也可推广至其他需要多语言支持且数据稀缺的专业领域(如法律、金融等)。

总之,该研究不仅回答了“通用还是专用嵌入更好”的问题——即在多语言特定任务中,经过合成数据微调的嵌入模型可能优于传统的专用基线——更为重要的是,它提供了一条低成本、高效率提升多语言医疗 AI 性能的新路径。

查看原文 →arxiv.org