← 返回信息流
技术博客arXiv cs.CL·1 小时前

门控多图融合图注意力网络实现阿尔茨海默症检测

原标题:Gated Multi-Graph Fusion via Graph Attention Networks for Alzheimer's Disease Detection

速览

该研究针对阿尔茨海默症(AD)的自发性语音检测,提出一种多视图门控图注意力网络。模型通过自动语音识别(ASR)转录音频,构建语义、依存和共现图,从内容、结构和语流三个维度刻画语音特征。其中共现图利用点互信息(PMI)量化叙事逻辑与语言偏离,自适应门控机制动态融合多视图以应对症状异质性。在ADReSSo数据集上准确率达90%,消融实验证明PMI图和异质性感知门控对跨临床人群鲁棒分类至关重要。

AI 深度解读

背景

阿尔茨海默病(Alzheimer's Disease, AD)的早期检测与筛查是当前医学界面临的重大挑战。在众多检测手段中,自发语音作为一种非侵入性的生物标志物,展现出巨大的潜力。然而,现有的病理语言分析系统往往存在两大盲点:一是忽视了病理语言中存在的非线性结构破坏(如语义断裂、句法混乱等);二是忽略了患者群体的临床异质性,即不同患者的语言障碍表现千差万别。如何从复杂的语音信号中捕捉到这些深层且异质性的病理特征,成为了提升 AD 自动检测精度的关键瓶颈。

核心内容

针对上述挑战,本文提出了一种基于图注意力网络(Graph Attention Networks)的门控多图融合模型,用于阿尔茨海默病的检测。该研究的核心在于将语音信号转化为多维度的图结构,并通过动态融合机制捕捉病理特征。

1. 多视图图构建与“内容-结构-流”框架 研究首先通过自动语音识别(ASR)技术将患者的音频转录为文本。在此基础上,文本被构建为三种不同维度的图:

  • 语义图:捕捉语言的内容信息。
  • 依存图:反映句法结构特征。
  • 共现图:重点刻画语言的连贯性与叙事逻辑。

这三种图共同构成了一个“内容-结构-流”的综合表征框架,从不同视角解构病理语言。

2. 基于 PMI 的共现图量化逻辑偏差 共现图是该研究的一大亮点。它并非简单统计词语共现,而是利用点互信息(Pointwise Mutual Information, PMI)从标准规范语料库中提取先验知识。通过计算患者语言与规范语料之间的 PMI 差异,该图能够精准量化患者在叙事逻辑和语言偏离程度上的异常。

3. 自适应门控融合机制 由于 AD 患者的语言障碍表现具有高度异质性(例如,部分患者表现为语义退化,另一部分表现为句法混乱),单一视图往往无法全面覆盖。为此,研究提出了一种自适应门控融合机制。该机制能够根据输入样本的特征,动态调整三种图视图的融合权重,从而实现对临床异质性样本的鲁棒分类。

4. 实验验证与消融分析 该模型在 ADReSSo 数据集上进行了评估,最终达到了 90.00% 的分类准确率。消融实验进一步证明:去除基于 PMI 的共现图或去除异质性感知的门控机制后,模型性能均显著下降,证实了这两个组件对于跨多样化临床人群进行稳健分类至关重要。此外,作者已将源代码公开,以促进该领域的后续研究。

关键要点

  • 多视图图表征:通过语义、依存和共现图,从“内容-结构-流”三个维度全面表征病理语言特征。
  • PMI 量化逻辑偏差:利用点互信息(PMI)从规范语料库中获取基准,在共现图中量化患者叙事逻辑的偏离程度。
  • 异质性感知融合:提出自适应门控融合机制,动态整合多视图,有效应对 AD 患者临床症状的个体差异。
  • SOTA 性能:在 ADReSSo 数据集上实现了 90.00% 的准确率,验证了模型的有效性。
  • **可
查看原文 →arxiv.org