← 返回信息流
技术博客arXiv cs.CL·1 小时前

TAG-DLM: Diffusion Language Models for Text-Attributed Graph Learning

AI 深度解读

背景

文本属性图(Text-attributed graphs, TAGs)是一种每个节点都带有自然语言描述的图数据结构。在这类图上执行学习任务,要求模型能够同时对文本语义和图拓扑结构进行联合推理。

然而,现有的处理方法往往将文本与图结构割裂开来:传统的图神经网络(GNNs)通常在浅层文本特征上进行操作,难以深入理解复杂的语义;而近年来流行的LLM与图结合的混合模型,大多仅将大语言模型当作一个文本编码器来提取特征,随即将结构学习的工作完全委托给一个独立的图模块。这种“拼接式”的双模态处理方式,无法真正实现文本推理与图结构信息传递的深度融合。

核心内容

为了克服上述局限,论文提出了 TAG-DLM(Diffusion Language Models for Text-Attributed Graph Learning)方法。该方法的核心创新在于,将文本推理与图消息传递统一在一个**带掩码的扩散语言模型(masked diffusion language model)**框架内。该语言模型具备双向注意力机制与生成式解码能力,打破了传统自回归模型只能单向生成的限制。

TAG-DLM 的具体运作机制如下:

  1. 邻域线性化:对于给定的图实例,模型首先采样目标节点的局部邻域,并将该邻域内的节点与边线性化为一个 token 序列。
  2. 拓扑注意力掩码注入:为了在序列中保留图的结构信息,模型引入了拓扑注意力掩码(topology attention mask)。该掩码机制使得模型在计算注意力时,能够感知节点间的连接关系,从而在语言模型的注意力层中直接实现了图上的消息传递。
  3. 统一的多任务适配:由于扩散语言模型天然具备理解与生成文本的双重能力,TAG-DLM 无需针对不同任务进行特定的微调。它仅通过改变输入的提示词,即可灵活适配节点分类、链接预测以及跨数据集迁移等多种下游任务。

在实验验证中,TAG-DLM 在三个主流的 TAG 基准测试中,针对节点分类和链接预测两项任务,全面超越了现有的图神经网络(GNNs)、图变换器以及基于 LLM 的基线模型,相较于最强基线模型,性能最高提升了 3.9 个百分点。

关键要点

  • 架构统一性:打破了传统方法中“文本编码器+图模块”的割裂设计,将文本语义推理与图结构消息
查看原文 →arxiv.org