技术博客arXiv cs.CL·4 小时前

超越英语基准：基于巴西葡萄牙语的临床大模型评估

原标题：Beyond English benchmarks: clinical llm evaluation in Brazilian Portuguese

速览

研究发布首个基于真实巴西病例报告的双语临床决策基准ClinicalBr，涵盖2892个病例。评估显示，英语在诊断检索上具有显著优势，但在鉴别诊断等任务上葡语表现相当。实验证实当前预训练已充分覆盖巴西特有热带疾病，且检查推荐是跨语言最难任务。

AI 深度解读

Beyond English Benchmarks: 临床大语言模型在巴西葡萄牙语中的评估

背景

随着大语言模型（LLMs）在临床决策支持及现实场景应用中的日益普及，其评估体系的重要性愈发凸显。然而，当前的主流基准测试（Benchmarks）绝大多数集中在英语语境下。这种以英语为主导的评估现状导致了全球范围内医疗 AI 应用的“语言鸿沟”，使得非英语地区的临床 AI 落地缺乏可靠的验证依据。

为了填补这一空白，跨语言评估变得至关重要。本文介绍了一个名为 ClinicalBr 的全新基准测试，这是首个基于真实巴西病例报告构建的双语临床决策基准。该研究旨在通过葡萄牙语-英语平行语料，客观评估当前主流大语言模型在葡萄牙语医疗场景下的表现，并探究语言差异对模型性能的具体影响。

核心内容

1. 数据集构建：ClinicalBr

研究团队从 SciELO（拉丁美洲、加勒比地区、西班牙和葡萄牙科学文献在线图书馆）的 28 医学期刊中抽取了 2,892 个真实病例，涵盖 18 个医学专科。这些数据被结构化处理为葡萄牙语和英语的平行对（Parallel Pairs），确保了语言间的可比性。

2. 评估任务设计

每个病例均支持以下四项核心临床决策任务：

诊断检索 (Diagnosis Retrieval)：从候选列表中识别正确诊断。
鉴别诊断 (Differential Diagnosis)：列出可能的鉴别诊断。
检查推荐 (Exam Recommendation)：推荐必要的医学检查项目。
治疗计划 (Treatment Planning)：制定治疗方案。

3. 模型评估范围

研究选取了四个具有代表性的大语言模型进行跨语言评估：

MedGemma-27B
Sabiá-4
DeepSeek-R1
o3-mini

4. 主要研究发现

性能差距的任务依赖性：葡萄牙语与英语之间的性能差距并非普遍存在，而是高度依赖于具体任务。
- 在诊断检索任务中，英语在所有模型上均表现出显著优势，准确率高出 7.5 至 12.1 个百分点。
- 在鉴别诊断、检查推荐和治疗计划任务中，这种优势消失。大多数模型的置信区间跨越零值，且葡萄牙语在完整性得分上甚至略高于英语。
热带病情的表现：针对巴西地方性流行病（Brazilian-endemic conditions）的测试结果显示，这些病例比整体语料库更容易处理，而非更难。这表明当前的预训练数据中已经充分代表了热带医学的表现形式。
最难任务识别：检查推荐是所有模型和两种语言中最具挑战性的任务。其 F1 分数均低于 0.10，远低于鉴别诊断任务 0.20-0.27 的性能上限。

关键要点

首个双语临床基准：ClinicalBr 填补了基于真实巴西病例的双语临床决策评估空白，数据源自 28 个 SciELO 期刊，覆盖 18 个专科。
语言优势非普适：英语在临床 AI 评估中的优势并非绝对。仅在“诊断检索”中存在显著的语言红利（+7.5-12.1% 准确率），而在更复杂的推理任务（如鉴别诊断、治疗计划）中，葡萄牙语表现与英语持平甚至略优。
预训练数据覆盖充分：巴西地方病并未成为模型的短板，反而表现较好，证明现有大规模预训练数据已包含足够的热带医学知识。
检查推荐是最大瓶颈：无论语言如何，模型在“检查推荐”任务上的表现均极差（F1 < 0.10），这提示该任务可能是当前 LLM 临床应用的重大短板，需要专门优化。
跨语言评估的必要性：研究证实，仅依赖英语基准无法全面反映模型在非英语环境下的真实能力，必须建立本地化的多语言评估体系。

意义与影响

1. 推动全球医疗 AI 的公平性与可及性 该研究直接挑战了以英语为中心的技术评估范式。通过证明在非英语语境下（特别是葡萄牙语），模型在某些复杂任务中并不逊色于英语，甚至表现相当，这为在巴西及葡萄牙语国家部署临床 AI 系统提供了数据支持，有助于消除“语言偏见”带来的技术落地障碍。

2. 揭示 LLM 在临床推理中的具体弱点 研究明确指出“检查推荐”是当前模型的普遍短板。这一发现对医疗 AI 开发者具有直接的指导意义：未来的优化方向不应仅局限于提升语言理解能力，更应聚焦于提升模型在生成具体医疗干预措施（如检查单）方面的准确性和安全性。

3. 验证预训练数据的全球化覆盖 巴西地方病在模型中表现良好，这一结果具有积极的信号意义。它表明，尽管存在语言差异，但基于多语言数据训练的通用大模型已经吸收了足够的全球医学知识。这对于在资源有限或特定地域（如热带地区）推广 AI 辅助诊断是一个利好消息，意味着无需为每个小语种重新从头训练模型。

4. 建立标准化的跨语言评估框架 ClinicalBr 提供的平行语料结构和标准化的四项任务，为后续的多语言医疗 AI 研究提供了一个可复用的框架。未来研究者可以基于此基准，进一步探索其他语言（如西班牙语、法语等）的临床模型性能，推动全球医疗大语言模型评估体系的多元化发展。

查看原文 →arxiv.org