技术博客arXiv cs.AI·4 小时前

OpenMedQ：基于最广泛开放数据的医疗视觉语言模型

原标题：OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models

速览

OpenMedQ是一种医疗视觉语言模型，基于迄今最广泛的完全开放医疗数据集进行预训练，涵盖病理、放射学等14个数据集共约335万样本。该模型在PathVQA上达到75.9的BLEU-1得分，超越参数量高达其80倍的Med-PaLM M变体，并在VQA-MED上匹配最佳成绩。其视觉编码器在8个未见过的医学分类基准上取得最高平均宏F1分数。研究团队已开源代码并提供交互式演示。

AI 深度解读

OpenMedQ：面向医疗视觉-语言模型的广泛开放预训练

背景

多模态大模型在医疗领域的应用正迅速从单一模态向视觉-语言（Vision-Language, V-L）融合方向演进。医疗数据具有极高的专业性和敏感性，且通常分散在病理学、放射学、显微镜检查以及纯文本临床问答等不同形式中。然而，现有的医疗多模态模型往往受限于训练数据的封闭性或模态覆盖的局限性，难以在广泛的医疗任务中达到最优性能。

为了打破这一瓶颈，研究人员致力于构建能够利用“最广泛完全开放医疗混合数据集”进行预训练的模型。OpenMedQ 正是在这一背景下诞生的，旨在通过整合大规模、多模态的开放医疗数据，提升视觉-语言模型在医疗领域的通用能力和基准测试表现。

核心内容

OpenMedQ 是一个医疗视觉-语言模型，其核心创新在于采用了迄今为止最广泛的完全开放医疗混合数据集进行预训练。该模型的数据基础涵盖了四个主要领域：病理学（Pathology）、放射学（Radiology）、显微镜检查（Microscopy）以及纯文本的临床问答（Clinical QA）。

具体而言，OpenMedQ 的预训练数据集由 14 个独立的数据集组成，总计包含约 335 万个（~3.35M）预训练样本。这种多模态、多领域的混合数据策略使得模型能够学习到更丰富的医疗语义对齐关系。

在性能评估方面，OpenMedQ 在多个关键基准测试中展现了卓越的能力：

PathVQA 基准测试：OpenMedQ 在 BLEU-1 指标上达到了 75.9 的最高分。这一成绩不仅刷新了纪录，还击败了参数规模高达 562B 的 Med-PaLM M 变体（后者规模约为 OpenMedQ 的 80 倍）。这表明 OpenMedQ 在数据效率和模型架构设计上具有显著优势。
VQA-MED 基准测试：在视觉问答（VQA-MED）任务中，OpenMedQ 的 BLEU-1 得分为 64.5，与目前报告的最佳成绩持平。
视觉编码器泛化能力：OpenMedQ 的视觉编码器在 8 个未见过的医疗分类基准测试中进行了迁移学习评估（使用相同的下游训练配方）。其平均宏观 F1 分数（Macro-F1）达到 0.757，优于 BiomedCLIP（0.745）、PMC-CLIP（0.745）、PubMedCLIP（0.746）以及从零开始训练的基线模型（0.616）。

此外，研究团队已公开了 OpenMedQ 的代码，并提供了一个可公开访问的交互式演示。该演示旨在为社区提供一个可复现的基线（Reproducible Baseline），以促进医疗多模态模型研究的透明度和可重复性。

关键要点

数据规模与多样性：OpenMedQ 使用了 14 个完全开放的医疗数据集，涵盖病理、放射、显微镜及纯文本临床问答，总计约 335 万条预训练样本，实现了迄今最广泛的开放医疗数据混合。
超越巨型模型的性能：在 PathVQA 基准测试中，OpenMedQ 以 BLEU-1 得分 75.9 领先，击败了参数规模高达 562B 的 Med-PaLM M 变体（规模差异约 80 倍），证明了小参数模型通过高质量数据混合也能取得SOTA（State-of-the-Art）效果。
视觉编码器的强大泛化性：其视觉编码器在 8 个未见过的医疗分类任务中取得了 0.757 的平均宏观 F1 分数，显著优于 BiomedCLIP、PMC-CLIP、PubMedCLIP 及从零训练的基线模型。
开源与可复现性：研究团队开源了代码并提供了交互式演示，致力于作为社区可复现的基线，推动医疗 AI 研究的开放协作。
多模态对齐优势：通过整合图像（病理、放射、显微）和文本（临床问答）数据，OpenMedQ 在视觉-语言对齐任务上达到了当前最佳水平（VQA-MED BLEU-1 达 64.5）。

意义与影响

OpenMedQ 的发布对医疗人工智能领域具有多重重要意义：

首先，它证明了数据质量和多样性比单纯增加模型参数规模更为关键。在 PathVQA 任务中，OpenMedQ 以极小的参数规模击败了比其大 80 倍的模型，这为资源受限的研究者和开发者提供了新的思路：通过精心构建开放、多模态的数据集，可以高效地训练出高性能的医疗多模态模型，降低对算力资源的依赖。

其次，OpenMedQ 强调了开放科学在医疗 AI 中的价值。通过提供完全开放的数据混合、代码和交互式演示，研究团队降低了复现前沿医疗 AI 成果的门槛。这不仅有助于建立标准化的评估基线，还能加速社区对医疗视觉-语言模型的理解和优化。

最后，OpenMedQ 在视觉编码器泛化能力上的优异表现，表明其学习到的医疗视觉特征具有极强的通用性。这对于需要处理罕见病、跨科室或新出现医疗影像类型的实际应用场景具有重要价值，预示着未来医疗 AI 系统将更加灵活和适应性强。

查看原文 →arxiv.org