技术博客arXiv cs.AI·7 小时前

REVEAL++：基于可微表型分组的阿尔茨海默病风险视觉语言建模

原标题：REVEAL++: Differentiable Phenotypic Grouping for Vision-Language Retinal Modeling of Alzheimer's Disease Risk

速览

针对现有阿尔茨海默病风险预测中表型分组离散化导致的刚性监督问题，研究提出REVEAL++框架。该方法将表型相似性建模为基于视网膜图像和风险档案嵌入相似度的可微权重函数，实现软多正样本关系。在UK Biobank数据上的实验表明，该连续化方法在预测精度上显著优于传统的离散分组对比学习及标准视觉语言基线模型。

AI 深度解读

REVEAL++：用于阿尔茨海默病风险视觉-语言视网膜建模的可微表型分组

背景

视网膜作为神经退行性疾病的非侵入性观察窗口，能够捕捉到与未来认知能力下降风险相关的细微结构模式。近年来，基于视觉-语言对齐的框架（如 REVEAL）在阿尔茨海默病（Alzheimer's Disease, AD）的早期预测中展现了巨大潜力。这类方法的核心逻辑在于：将视网膜眼底图像与结构化的临床风险叙事相结合，从而提升预测精度。

在 REVEAL 等现有方法的设计中，表型分组（Phenotypic Grouping） 是一个关键的设计选择。其基本思路是，在对比学习（Contrastive Learning）过程中，将具有相似风险特征的个体视为“多正样本对”（multi-positive pairs），从而拉近它们在特征空间中的距离。

然而，现有的方法在处理表型相似性时存在一个根本性的局限：它们将表型相似性操作化为一种离散的构造（discrete construct）。具体而言，这些方法依赖于硬性的分组分配（hard group assignments），这种刚性监督机制导致了两个主要问题：

分组形成过程与表示学习（representation learning）过程解耦。
无法反映疾病风险作为一种连续谱系（spectrum nature）的本质特征。

为了解决这一痛点，研究人员提出了 REVEAL++ 框架，旨在通过可微的表型分组机制，实现更精细、更连续的疾病风险建模。

核心内容

REVEAL++ 的核心创新在于提出了一种连续的表型结构公式化方法，将其整合到对比学习框架中。与将样本分配到固定聚类中心的传统方法不同，REVEAL++ 将主体间的相似性建模为一个可微的加权函数（differentiable weighting function）。

1. 连续相似性建模

该框架不再依赖离散的标签或硬性分组，而是从视网膜图像和风险档案（risk profiles）的模态内嵌入相似度（intra-modality embedding similarities）中推导出权重。这些权重定义了通过连续聚合算子（continuous aggregation operator）形成的软多正样本关系（soft multi-positive relationships）。

这种机制允许模型进行分级监督（graded supervision），从而更准确地反映疾病风险的连续谱系特性，而非简单的“高风险/低风险”二元分类。

2. 软目标对比目标函数

REVEAL++ 引入了一种软目标对比目标函数（soft-target contrastive objective）。该目标函数以端到端（end-to-end）的方式联合学习跨模态对齐和表型结构。这意味着模型可以同时优化图像与文本之间的语义对齐，以及基于风险相似性的样本间关系，而不是分阶段进行。

3. 实验验证

在 UK Biobank 的视网膜成像数据上，针对新发阿尔茨海默病（incident AD）的预测任务进行了评估。结果表明，REVEAL++ 框架在性能上一致优于：

基于离散分组的对比学习方法。
标准的视觉-语言基线模型。

通过将对表型相似性的处理从固定的分组规则转变为可学习的连续信号，REVEAL++ 为基于多模态视网膜和临床数据的群体规模神经退行性疾病风险建模，提供了一个原则性强且稳健的基础。

关键要点

突破离散分组局限：现有方法（如 REVEAL）使用硬性分组处理表型相似性，导致监督信号僵化且与表示学习解耦；REVEAL++ 将其转化为连续、可微的加权函数。
可微的表型结构：利用视网膜图像和风险档案的模态内嵌入相似度，构建主体间相似性的可微权重，实现软多正样本关系。
连续聚合与分级监督：通过连续聚合算子定义关系，提供反映疾病风险谱系特性的分级监督，而非二元分类。
端到端联合学习：引入软目标对比目标函数，同时优化跨模态对齐和表型结构，实现端到端的训练。
性能显著提升：在 UK Biobank 数据的新发 AD 预测任务中，REVEAL++ 持续优于基于离散分组的对比学习方法和标准视觉-语言基线。
方法论意义：证明了将表型相似性视为可学习的连续信号而非固定规则，是构建稳健、可扩展的神经退行性疾病风险建模框架的有效途径。

意义与影响

REVEAL++ 的提出不仅在算法层面改进了视觉-语言模型在医疗领域的应用，更在方法论上为多模态生物医学数据分析提供了新的视角。

首先，它解决了医疗数据中常见的标签噪声与模糊性问题。疾病风险并非非黑即白的分类问题，而是一个连续的谱系。通过引入可微的表型分组，REVEAL++ 能够更细腻地捕捉患者之间的细微差异，避免了硬性分组可能带来的信息损失和偏差。

其次，该框架展示了多模态融合的深度潜力。通过将视网膜影像（视觉模态）与临床风险叙事（语言模态）在连续空间中对齐，模型能够挖掘出单一模态难以发现的潜在生物标志物。这对于阿尔茨海默病等复杂神经退行性疾病的早期筛查具有重要意义，因为视网膜变化往往是脑部病变的早期外周表现。

最后，REVEAL++ 为大规模人群健康研究提供了可扩展的技术基础。其端到端的学习机制和连续相似性度量，使得模型能够适应大规模、异质性强的真实世界数据（如 UK Biobank），从而推动精准医疗从理论走向临床实践。这一工作不仅限于阿尔茨海默病，其核心思想也可推广至其他具有连续风险谱系的慢性疾病的早期预测与干预。

查看原文 →arxiv.org