技术博客arXiv cs.AI·2 小时前

多模态融合非万能：跨模态表征对齐优化生存预测

原标题：Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling

速览

针对多模态临床数据中的模态不平衡和分布偏移问题，研究提出一种基于基础模型的跨模态表征对齐框架。该框架通过晚期融合、对比对齐、交叉注意力和共注意力四种策略，对齐CT影像与纵向电子健康记录。实验表明，对比多模态融合在肺栓塞死亡率预测中表现最稳健，为鲁棒泛化和临床部署提供了任务感知的对齐设计原则。

AI 深度解读

Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling

背景

在临床数据分析领域，基于多模态数据（如医学影像和电子健康记录）进行“事件发生时间”（Time-to-Event, TTE）预测是一项极具挑战性的任务。TTE预测旨在估计患者发生特定临床事件（如死亡、疾病复发或并发症）所需的时间，这对于制定个性化治疗方案至关重要。

然而，当前的TTE预测模型面临着两大核心痛点：

模态不平衡（Modality Imbalance）：不同来源的数据（如CT影像与纵向EHR数据）在信息密度、噪声水平和特征分布上存在巨大差异，单一模态往往难以捕捉完整的临床图景。
分布偏移（Distribution Shift）：模型在不同医疗机构或不同患者群体间泛化能力不足，导致在外部验证集上性能显著下降。

传统的融合方法往往采用“一刀切”（one-size-fits-all）的策略，试图用同一种融合架构处理所有任务。但本文指出，这种通用策略忽视了不同临床任务对多模态数据依赖性的本质差异。因此，研究亟需一种能够适应不同模态贡献度、并在共享潜在空间中实现有效对齐的基础模型驱动框架。

核心内容

本研究提出了一种基于基础模型（Foundation Models）的跨模态表示对齐框架，旨在解决CT影像与纵向电子健康记录（EHR）数据之间的融合难题。该框架的核心设计理念是：不使用单一的融合策略，而是通过四种原则性的融合方法，在共享潜在空间中对齐来自不同模态的特征，从而实现跨任务和跨机构的泛化能力。

1. 数据与任务设置

研究使用了大规模多机构队列数据，涵盖了两个临床上截然不同的TTE预测任务：

肺栓塞（PE）死亡率预测：
- 训练集：3,099例
- 内部验证集：1,098例
- 外部验证集：435例
心血管疾病（CVD）结果预测（主要不良心血管事件 MACE）：
- 训练集：2,951例
- 内部验证集：837例
- 外部验证集：682例

2. 方法论：基础模型驱动的对齐

研究并未从头训练编码器，而是利用领域特定的基础模型独立编码CT和EHR数据：

CT影像：使用专门的视觉基础模型进行编码。
EHR数据：使用专门的语言/时序基础模型进行编码。

随后，通过以下四种融合策略在共享潜在空间中对齐这些表示：

晚期融合（Late Fusion）：在模型末端简单拼接或加权融合特征。
对比对齐（Contrastive Alignment）：利用对比学习拉近同一患者不同模态表示的距离，推远不同患者的表示。
交叉注意力（Cross-Attention）：允许一种模态的查询向量去关注另一种模态的键值对，实现细粒度的信息交互。
共注意力（Co-Attention）：双向的注意力机制，同时优化两种模态之间的相互关注。

3. 实验结果与分析

研究系统地评估了这四种策略在两个任务上的表现，并特别关注了模态不平衡情况下的融合行为。

总体性能提升：当两种模态的贡献度相当时，融合策略相比单模态基线模型，一致性指数（Concordance Index, C-index）提升了 1.5% - 5.4%。
最佳融合策略：
- PE死亡率预测：对比多模态融合（特别是结合 CLMBR 表示时）提供了最一致且统计上最显著的提升。这表明在PE任务中，通过对比学习对齐全局语义表示更为有效。
- MACE预测：表现取决于验证环境。
  - 内部性能最高：交叉注意力（One-hot编码）。
  - 外部性能最佳：图像引导的共注意力（Image-guided Co-attention）。这暗示在泛化到外部机构时，图像引导的共注意力机制能更好地处理分布偏移。

关键要点

融合策略需因任务而异：不存在适用于所有TTE预测任务的通用最佳融合架构。PE死亡率和CVD结果预测对融合机制的需求截然不同。
对比学习在特定场景下优势明显：对于PE死亡率预测，基于对比学习的多模态融合（尤其是使用CLMBR表示）在统计稳健性和一致性上表现最佳。
注意力机制的变体影响泛化能力：在MACE预测中，交叉注意力在内部验证中表现最好，而图像引导的共注意力在外部验证中表现最好，说明后者可能具有更强的鲁棒性以应对机构间的分布差异。
基础模型是有效对齐的前提：利用预训练的基础模型独立编码异构数据，比端到端从头训练更能保证特征提取的质量，为后续的对齐提供了良好的初始表示。
模态不平衡是关键挑战：研究首次系统地分析了在模态不平衡条件下TTE预测中的融合行为，证实了任务感知的多模态对齐是鲁棒泛化和可扩展临床部署的必要设计原则。

意义与影响

这项研究对临床AI和多模态学习领域具有深远的影响：

挑战“通用融合”假设：它打破了多模态融合中“一种方法适用于所有情况”的迷思，强调了**任务感知（Task-aware）**的设计原则。临床开发者在选择融合策略时，必须根据具体预测目标和数据特性进行定制，而非盲目套用标准架构。
提升临床部署的可行性：通过证明基于基础模型的跨模态对齐框架能够在多机构数据上实现良好的泛化，本研究为解决临床AI落地中最大的障碍——分布偏移问题——提供了可行的技术路径。特别是图像引导的共注意力在外部验证中的优异表现，为模型在真实世界不同医院间的迁移应用提供了信心。
推动标准化评估框架：研究提供了首个在模态不平衡条件下系统分析TTE预测融合行为的基准。这有助于建立更严格的评估标准，促使后续研究更加关注模型的鲁棒性和泛化能力，而不仅仅是内部验证集的性能。
促进多模态基础模型的发展：研究验证了利用领域特定基础模型（如CLMBR）进行表示对齐的有效性，鼓励了更多研究者探索如何将预训练基础模型的优势整合到复杂的临床决策支持系统中。

总之，该工作不仅提出了一种有效的技术框架，更从方法论层面强调了在复杂临床场景中，多模态融合策略的灵活性和针对性是构建可靠、可扩展AI系统的关键。

查看原文 →arxiv.org