技术博客arXiv cs.CL·1 小时前

TAG-DLM: Diffusion Language Models for Text-Attributed Graph Learning

AI 深度解读

背景

文本属性图（Text-attributed graphs, TAGs）是一种每个节点都带有自然语言描述的图数据结构。在这类图上执行学习任务，要求模型能够同时对文本语义和图拓扑结构进行联合推理。

然而，现有的处理方法往往将文本与图结构割裂开来：传统的图神经网络（GNNs）通常在浅层文本特征上进行操作，难以深入理解复杂的语义；而近年来流行的LLM与图结合的混合模型，大多仅将大语言模型当作一个文本编码器来提取特征，随即将结构学习的工作完全委托给一个独立的图模块。这种“拼接式”的双模态处理方式，无法真正实现文本推理与图结构信息传递的深度融合。

核心内容

为了克服上述局限，论文提出了 TAG-DLM（Diffusion Language Models for Text-Attributed Graph Learning）方法。该方法的核心创新在于，将文本推理与图消息传递统一在一个**带掩码的扩散语言模型（masked diffusion language model）**框架内。该语言模型具备双向注意力机制与生成式解码能力，打破了传统自回归模型只能单向生成的限制。

TAG-DLM 的具体运作机制如下：

邻域线性化：对于给定的图实例，模型首先采样目标节点的局部邻域，并将该邻域内的节点与边线性化为一个 token 序列。
拓扑注意力掩码注入：为了在序列中保留图的结构信息，模型引入了拓扑注意力掩码（topology attention mask）。该掩码机制使得模型在计算注意力时，能够感知节点间的连接关系，从而在语言模型的注意力层中直接实现了图上的消息传递。
统一的多任务适配：由于扩散语言模型天然具备理解与生成文本的双重能力，TAG-DLM 无需针对不同任务进行特定的微调。它仅通过改变输入的提示词，即可灵活适配节点分类、链接预测以及跨数据集迁移等多种下游任务。

在实验验证中，TAG-DLM 在三个主流的 TAG 基准测试中，针对节点分类和链接预测两项任务，全面超越了现有的图神经网络（GNNs）、图变换器以及基于 LLM 的基线模型，相较于最强基线模型，性能最高提升了 3.9 个百分点。

关键要点

架构统一性：打破了传统方法中“文本编码器+图模块”的割裂设计，将文本语义推理与图结构消息

查看原文 →arxiv.org

TAG-DLM: Diffusion Language Models for Text-Attributed Graph Learning

AI 深度解读

背景

核心内容

关键要点

相关推荐