技术博客arXiv cs.CL·3 天前

通用还是专用嵌入？非英语临床编码搜索实证研究

原标题：Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages

速览

针对非英语临床检索中召回率下降的问题，研究探索利用大型生成式语言模型作为数据工厂来弥补差距。团队基于西班牙语生物医学编码器，使用Gemini生成的合成数据进行了两阶段检索器微调。实验表明，该方法在多种语言上显著提升了检索性能，为构建领域特定医疗检索器提供了开放方案。

AI 深度解读

通用还是专用嵌入？非英语临床编码检索的实证研究

背景

在自然语言处理（NLP）领域，用于语义搜索的句子嵌入（Sentence-embedding）模型绝大多数是在英语语料库上进行开发和评估的。然而，当这些模型被应用于其他语言——特别是涉及 ICD-10-CM（国际疾病分类第十版临床修改版）或 CIE-10 编码的临床检索任务时，其召回率（Recall）往往会显著下降。这种性能退化往往被聚合基准测试（Aggregate Benchmarks）所掩盖，导致在非英语临床场景下的实际表现被高估。

与此同时，大型生成式语言模型（LLMs）作为“数据工厂”的能力日益受到关注。本研究旨在探讨是否可以利用 LLM 生成合成数据，来填补非英语临床检索中的性能缺口，并比较通用嵌入模型与特定领域嵌入模型在该任务中的优劣。

核心内容

本研究构建了一个两阶段检索器（Two-stage Retriever），其架构由双编码器（Bi-encoder）作为初始检索器，后接交叉编码器（Cross-encoder）作为重排序器（Reranker）。该系统的核心创新在于利用 Gemini 生成的合成数据进行微调，以解决多语言临床编码检索中的数据稀缺问题。

1. 数据构建与模型微调

基础模型：研究以西班牙语生物医学编码器 PlanTL-GOB-ES/bsc-bio-ehr-es 为起点。
合成数据：利用 Gemini 生成了涵盖六种语言的合成数据对，包括英语、西班牙语、加泰罗尼亚语、意大利语、葡萄牙语和法语。
微调目标：针对 ICD-10-CM / CIE-10 编码检索任务进行监督微调。

2. 实验设置与对比基线

研究将构建的两阶段检索器与以下基线模型进行了对比：

BioBERT-ST：一种经过微调的生物医学嵌入模型。
未微调的西班牙语编码器：即基础模型 PlanTL-GOB-ES/bsc-bio-ehr-es。

3. 主要实验结果

双编码器阶段（Bi-encoder alone）：

在不使用英语生物医学预训练数据的情况下，仅使用合成数据微调后的双编码器在平均倒数排名（MRR）上达到了 0.876，略高于 BioBERT-ST 的 0.866。
在召回率指标上，该模型表现更佳：R@3 为 0.650（优于 BioBERT-ST 的 0.626），R@5 为 0.804（优于 BioBERT-ST 的 0.790）。

两阶段检索阶段（加入交叉编码器重排序）：

加入交叉编码器重排序器后，聚合 R@5 提升至 0.822。
在五种语言中的四种语言上取得了显著优势：
- 西班牙语：+0.017
- 加泰罗尼亚语：+0.033
- 法语：+0.018
- 葡萄牙语：+0.037
代价：英语性能出现轻微回落（Regression）。

4. 临床可接受性与关键发现

研究指出，英语性能的轻微下降在临床应用中是可以接受的，因为非英语语言的性能提升具有极高的临床价值。例如，在葡萄牙语任务中，该模型达到了 R@5 = 0.829，而 BioBERT-ST 仅为 0.714，差距巨大。

此外，研究量化了学习增益：MRR 从 0.755 提升至 0.876，增幅达 15.9%，且仅使用了约 19,500 对合成数据。

关键要点

LLM 作为数据工厂的有效性：利用 Gemini 生成合成数据，可以在没有大量真实标注数据的情况下，显著提升非英语临床检索模型的性能。
通用 vs. 专用嵌入的权衡：虽然 BioBERT-ST 是强大的专用基线，但通过 LLM 合成数据微调的通用/多语言嵌入模型（基于西班牙语生物医学基础模型）在多语言场景下展现出了更强的适应性和更高的召回率。
两阶段架构的优势：双编码器负责高效检索，交叉编码器负责精细重排序，这种组合在多个非英语语言上显著提升了 R@5 指标。
数据效率极高：仅需约 19,500 对合成数据，即可实现 MRR 15.9% 的大幅提升，证明了合成数据在微调中的高杠杆效应。
语言特异性增益：性能提升在不同语言间分布不均，但在葡萄牙语、加泰罗尼亚语和法语上尤为显著，而英语性能略有牺牲，这在多语言临床部署中是合理的权衡。
开源食谱（Open Recipe）：研究提供了一套完整的方法论，展示了如何从 LLM 生成的数据构建特定领域的医疗检索器，为其他低资源语言或特定领域提供了可复现的路径。

意义与影响

这项研究对医疗人工智能和多语言 NLP 领域具有深远的影响：

打破英语中心主义：它揭示了当前临床检索模型在非英语环境下的局限性，并证明通过合成数据可以弥合这一差距，促进了医疗 AI 在全球范围内的公平性和可用性。
降低数据获取门槛：医疗数据通常涉及隐私且标注成本高昂。本研究证实了利用 LLM 生成高质量合成数据来微调检索模型是可行且高效的，为其他缺乏大规模标注数据的医疗垂直领域提供了新的解决方案。
优化临床工作流：ICD-10 编码是医疗记录、保险报销和流行病学研究的基础。提高非英语环境下的编码检索准确率，可以直接提升临床医生的工作效率，减少编码错误，从而改善医疗数据的质量和可用性。
方法论贡献：提出的“LLM 生成数据 + 两阶段检索器微调”范式，不仅适用于临床编码，也可推广至其他需要多语言支持且数据稀缺的专业领域（如法律、金融等）。

总之，该研究不仅回答了“通用还是专用嵌入更好”的问题——即在多语言特定任务中，经过合成数据微调的嵌入模型可能优于传统的专用基线——更为重要的是，它提供了一条低成本、高效率提升多语言医疗 AI 性能的新路径。

查看原文 →arxiv.org