GAugLLM: Improving Graph Contrastive Learning for Text-Attributed Graphs with Large Language Models论文阅读笔记
Abstract
现存的问题:
文本属性的长度和质量往往各不相同,因此很难在不改变原始语义的情况下扰乱原始文本描述。其次,虽然文本属性与图结构互为补充,但它们在本质上并不完全一致。
提出方法:
为了弥补这一差距,我们引入了 GAugLLM,这是一个用于增强 TAG 的新型框架。它利用 Mistral 等先进的大型语言模型来增强自监督图学习。具体来说,我们引入了一种混合提示专家技术来生成增强节点特征。这种方法可将多个提示专家(每个专家都会利用提示工程修改原始文本属性)自适应地映射到数字特征空间中。此外,我们还设计了一种协作边修改器,以利用结构和文本的共性,通过检查或建立节点之间的连接来增强边增强功能。
Introduction
尽管近年来提出了许多 GCL 方法,但这些方法在应用于富含文本描述的图(通常称为文本归属图 (TAG))时,还是表现出了局限性。TAG 的一个典型例子是引文网络,其中每个节点代表一篇研究论文,包括标题和摘要等文本属性。这些文本属性具有很强的表现力,能捕捉到错综复杂的语义细微差别,因此能为增强图学习提供有价值的信息。然而,以往的 GCL 研究只是简单地利用文本属性,通过浅层嵌入模型(如 Word2vec [20] 或词袋(BoW))得出数字特征。随后,他们对这个转换后的特征空间进行特征级扰动。
虽然概念上很简单,但这种特征增强策略本质上是次优的。它无法完全捕捉语义特征的复杂性,而且增强特征的质量受限于所使用的文本转换函数。此外,这些方法仅依靠边缘遮蔽等随机扰动函数,以与属性无关的方式进行结构增强。然而,正如之前的文献所讨论的那样,随机扰动原始图中的边是有风险的。因此,文本属性是推进图增强以实现有效对比学习的宝贵资源。
然而,利用文本属性进行有效的图增强面临着一些挑战。首先,在进行文本增强的同时保持原始语义是很困难的,因为现实世界图中的文本属性通常在长度和质量上各不相同。在这种情况下,传统的启发式增强策略,如随机词语替换、插入和交换,可能无法达到最佳效果。其次,将增强的文本属性映射到数字空间也是一个挑战。与在预处理步骤中将文本数据转换为特征向量的传统 GCL 方法不同,直接扰动输入文本属性需要一个原则性的文本转换函数,该函数能够捕捉到增强文本属性与原始文本属性之间的差异。此外,由于图中的节点往往表现出不同的特征,因此这种转换函数应针对每个节点进行个性化处理。
第三,由于文本属性和图结构的异质性,仅根据文本属性来增强拓扑结构是无效和低效的。一个直观的解决方案是通过计算节点在文本空间中的相似度来估算节点之间的边缘权重,然后利用估算出的边缘权重在边缘空间中采样生成增强图,但这种方法存在可扩展性问题。其复杂性与图的大小成二次方关系,在实际应用中,图的大小可能达到数百万甚至数十亿。此外,由于文本属性和图结构一般不会完全一致,因此可能会产生连接模式与原始图拓扑明显不同的次等增强图。因此,有效的结构增强策略应同时考虑文本属性和原始图结构。
为了填补这一研究空白,我们在这项工作中提出了 GAugLLM,这是一种用于图上自监督学习的新型图增强框架。其关键思路是利用先进的大型语言模型(LLM),如LLaMa,来扰动和提取文本空间中的有价值信息,从而实现有效的特征和结构级增强。具体来说,为了应对前两个挑战,我们引入了一种混合提示专家技术,根据不同的提示专家对原始文本属性进行扰动,每个提示专家代表一个为 LLM 量身定制的特定提示模板。
随后,对较小的 LLM(如 BERT)进行微调,以动态地将多个增强文本属性整合到特征空间中。这种转换考虑了节点统计数据,并采用观察到的节点连接作为训练监督。为了应对第三个挑战,我们提出了一种协作边缘修改器策略。这种方法从结构角度出发,优先处理每个节点与其他节点之间最虚假和最可能的连接,从而降低了增强的复杂性。然后采用 LLM 来识别文本属性背景下最有希望的连接。
本文的主要贡献如下:
- 我们介绍了一种新颖的图增强方法,即 GAugLLM,它专为文本属性图而设计。标准的 GCL 方法仅将文本属性转换为特征向量,并独立进行特征和边缘级扰动,与此不同,GAugLLM 利用丰富的文本属性和 LLM,联合进行特征和边缘级扰动。
- 我们提出了一种混合提示专家方法,通过直接扰动输入文本属性来生成增强特征。与基于启发式的随机扰动不同,我们利用强大的 LLM 从不同的提示方面对文本属性进行扰动,然后将其动态整合到统一的特征空间中作为增强特征。
- 我们设计了一种协作式边缘修改器方案,利用文本属性进行结构扰动。与传统的边缘扰动功能(如随机屏蔽)不同,我们提供了一种原则性的方法,通过联合查看文本和结构空间来添加和删除节点连接。
Preliminary
我们的目标是预先训练一个映射函数 𝑓𝜃 : S × A → R 𝑑,这样就能以自监督的方式在 𝑑 维空间中有效捕捉 S 中的语义信息和 A 中的拓扑结构。S为属性集,A为邻接矩阵
Method
模型的示意图如下:
在本节中,我们将介绍图 1 所示的 GAugLLM。我们首先讨论如何扰动原始文本属性以有效增强特征(第 4.1 节)。然后,我们将详细介绍一种量身定制的协作边缘修改器,以有效添加或删除边缘,从而实现结构增强(第 4.2 节)。最后,我们将展示如何将所提出的特征和结构级增强策略扩展到标准 GCL 管道(第 4.3 节)。
混合提示专家
如上所述,传统的 GCL 方法在利用丰富的文本属性进行特征增强方面存在局限性,因为它们在预处理步骤中仅依赖浅层嵌入模型将文本属性转换到特征空间。然后将这些转换后的特征输入扰动函数𝜏𝑠,进行特征扰动。为了充分利用文本属性进行特征增强,我们提出了一个名为 “混合提示专家 ”的新框架。
图 2 描述了整体架构,它提供了一种直接扰动文本属性并将其映射到特征空间的优雅方法。给定一个 \(\mathcal{G}=(\mathcal{V},\mathcal{S},\mathcal{A})\)作为输入,我们的模型使用不同的提示专家\(\{f_{pe}^i\}_{i=1}^m\)将节点𝑣 的文本属性𝑆𝑣 扰动为不同的增强文本\((\{\hat{S}_{\boldsymbol{\upsilon}}^i\}_{\boldsymbol{i}=1}^m)\)。 ,其中 𝑚 表示专家总数。让 𝑓Θtext 表示参数为 Θtext 的文本转换函数,\(\hat{\mathbf{x}}_v^i\)表示由\(f_{pe}^i\)产生的𝑖-th 增强文本的隐藏嵌入。
提示专家
我们的混合提示专家方法首先是配置一组不同的提示专家来扰乱原始文本属性𝑆𝑣,同时保留其语义。受 LLM在理解和生成自然语言方面取得巨大成功的激励,我们使用 LLM 对提示专家进行初始化,但提示设计各不相同。具体来说,我们设计了三种不同的提示模板,从结构和推理角度对原始文本属性进行扰动,如下所示。
结构感知的总结(SAS Expert)
让 \(\mathcal{S}_v^N = \{S_u|v\in\mathcal{N}_v\}\)表示节点𝑣 的邻居的文本属性集。SAS 的设计理念是查询 LLM,通过理解锚节点𝑣 的邻居和自身的语义信息,创建锚节点𝑣 的摘要。一般的提示格式如图 7 所示。
独立推理(IDR Expert)
与专注于文本总结的 SAS 相比,IDR 在查询 LLM 时采用了 “开放式 ”方法。这就需要指示模型对潜在的类别进行预测,并为其决定提供解释。这里的基本理念是,这样的推理任务将促使 LLM 在更高层次上理解输入文本属性的语义意义,并将重点放在最重要和最相关的因素上。一般的提示格式如图 7 所示。
结构感知的推理(SAR Expert)
SAR 比 IDR 更进一步,将结构信息整合到了推理过程中。这样做的理由在于,连接节点可以帮助推断锚节点的主题。一般的提示格式如图 7 所示。
基于三位提示专家,我们可以将每个节点𝑣 的文本属性𝑆𝑣 映射为三个增强文本\(\{\hat{S}_v^i|i\in\{\text{SAS, IDR, SAR}\}\}\)
文本编码器
扰动原始文本属性后,我们需要训练一个文本编码器,将增强文本映射到隐藏空间。我们的目标不是使用浅层嵌入算法,而是微调较小的 LLM(如 BERT)来编码特定领域的文本数据。具体来说,给定节点 𝑣 的增强文本集$${\hat{S}_v^i|i\in{\text{SAS, IDR, SAR}}}$$,文本编码器的工作原理如下:
\(\hat{\mathbf{x}}_v^i=f_{\Theta_{\mathrm{text}}}(\hat{S}_v^i),\)
其中,\(\mathrm{x}_v^i\in\mathbb{R}^D\)表示文本编码器生成的𝑖-提示专家的特征向量。因此,对于每个节点𝑣,我们总共可以生成四个增强特征向量,每个特征向量相应地代表一个提示专家。我们将原始文本属性作为第四个提示专家。
上下文感知选择器
给定了 𝑚 个初始增强特征向量\(\{\hat{\mathbf{x}}_v^i\}_{i=1}^m\),接下来的问题是如何选择与每个节点最相关的特征向量。不同的图可能会受益于不同类型的增强策略。同样,每个提示专家也可视为特定的扰动策略。因此,一个直观的解决方案是采用一种注意力机制,通过计算注意力系数来动态整合最相关的专家:
\(\alpha_0^i=\frac{\exp(\mathbf{W}_1\hat{\mathbf{x}}_v^i/\tau)}{\sum_{k=1}^m\exp(\mathbf{W}_1\hat{\mathbf{x}}_v^k/\tau)},\)
公式 (3) 虽然有效,但在整合各种提示专家时忽略了节点统计信息。为了解决这个问题,我们引入了上下文提示的概念,它描述了每个提示专家的功能和节点统计信息,如程度信息。让\(S_v^{(c,i)}\) 表示节点 𝑣 对于第 𝑖 位提示专家的上下文提示,我们计算节点 𝑣 的上下文感知注意力分布如下:
\(\alpha_v^{c,i}=\frac{\exp(f_{\Theta_{\mathrm{text}}}(S_v^{(c,i)})\mathbf{W}_2\hat{\mathbf{x}}_v^i/\tau)}{\sum_{k=1}^m\exp(f_{\Theta_{\mathrm{text}}}(S_v^{(c,k)})\mathbf{W}_2\hat{\mathbf{x}}_v^k/\tau)}.\)
我们得到节点 𝑣 的最终增强特征向量\(\hat{\mathbf{x}}_v\)为:\(\hat{\mathbf{x}}_v=\sum_i\alpha_v^i\hat{\mathbf{x}}_v^i.\)
训练目标
为了在文本属性空间内有效地微调预训练的较小 LLM (𝑓Θtext),我们训练 𝑓Θtext 以重建观察到的连接。具体来说,给定节点 𝑣 及其在邻接矩阵 A𝑣、: ,我们将微调任务视为多标签分类问题。然而,在大小为 |V | 的高维输出空间上直接微调 𝑓Θtext 在计算上是不可行的。为了应对这一挑战,我们采用了 GAINT 中使用的极端多标签分类(XMC)技术来进行高效优化。
协同边缘修改器
到此为止,我们已经讨论了利用文本属性获取增强特征向量\(\{\hat{\mathbf{X}}_v\}\)的过程。现在,我们将探讨如何利用文本属性进行有效的结构扰动。从本质上讲,边缘扰动的目的是增强原始结构和增强结构之间的多样性,同时保持它们的结构模式。在我们的语境中,边缘扰动面临两个主要障碍:1)边缘搜索空间相对于图大小的二次方增长,导致在查询 LLM 时产生巨大的计算成本;2)文本空间和观察到的拓扑结构之间存在语义差异,使得边缘扰动仅依赖其中一个空间并非最佳选择。
为了应对这一挑战,我们提出了一个文本感知边缘扰动框架,称为协作边缘修改器。该框架利用两种数据模式的共性进行边缘扰动。第一阶段涉及结构感知的顶部候选生成。具体来说,我们采用标准网络嵌入算法(如 DeepWalk),仅使用结构数据将节点映射到隐藏空间。随后,我们根据任意两个节点的网络嵌入来评估它们之间的相似性。对于每个节点𝑣,我们会创建两个不相交的边缘集\(\mathcal{E}_v^\text{spu }\mathrm{~and~}\mathcal{E}_v^\text{mis}\)。前者包含观察到的链接中最不相似的前K条边,代表最虚假的连接。后者包含原始图中断开链接中最相似的前 K 条边,表示可能/遗漏的连接。
在获得节点𝑣 的两个候选集$$\mathcal{E}_v^\text{spu }\mathrm{and}\mathcal{E}_v^\text{mis}$$之后,第二阶段的目标是利用文本属性修改这两个集。特别是,我们定义了一个简单的边缘修饰符提示,用于查询 LLM,通过解释两个节点的语义相似性来确定它们是否应该连接。让 𝑆𝑣,𝑢 表示节点 𝑣 和 𝑢 的查询提示,我们在下面定义添加和删除操作。
边删除
这一操作是针对潜在的虚假集\(\mathcal{E}_v^\text{spu }\)而设计的。我们要求 LLM 使用相应的查询提示来估计每一条边\(e\in\mathcal{E}_v^\text{spu}\)的可能性,从而得到一个操作序列\(a_v^{\mathrm{del}}\in\mathbb{R}|\mathcal{E}_v^{\mathrm{spu}}|\)。这里,如果 LLM 认为两个节点应该断开连接,则\(a^\text{del}v(i)=1\),否则\(a^\text{del}v(i)=0\)。
边添加
除了边删除,我们还定义了添加操作,以添加\(\mathcal{E}_v^{\mathrm{mis}}\)中可能缺失的链接。我们查询 LLM,使用相应的查询提示来评估每条边\(e\in\mathcal{E}_v^{\mathrm{mis}}\)的可能性,从而得到一个操作序列 \(a_v^{\mathrm{add}}\in\mathbb{R}^{|{\mathcal{E}_v^{\mathrm{mis}}}|}\) 。如果 LLM 认为两个节点应该相连,则\(a_v^{\mathrm{add}}(i)=1\);否则\(a_v^{\mathrm{add}}(i)=0\)。
TAG的图对比学习
给定增强特征矩阵\(\hat{\mathbf{X}}\)和边缘扰动集合\(\{a_v|v\in\mathcal{V}\}\),我们可以用我们的增强策略取代现有的 GCL 方法,从而提高其性能。具体来说,之前的研究旨在最大化两个增强视图之间的互信息,分别用 (A1, X1) 和 (A2, X2) 表示。现在,我们可以预先训练一个 GNN 编码器,使 (A, X) 和\((\hat{\mathbf{X}},\hat{\mathbf{A}})\)之间的互信息最大化。这里,X 是根据原始文本属性得到的特征矩阵,即 X𝑣 = 𝑓Θtext(𝑆𝑣 ) ,而\(\hat{\mathbf{A}}\)则是通过每次迭代从 {𝑎𝑣 |𝑣∈ V} 中以简单明智的方式随机抽样(如均匀分布)一些动作来构建的。值得注意的是,由于边缘动作选择的随机性,增强视图$$(\hat{\mathbf{X}},\hat{\mathbf{A}})$$在不同的迭代中会有所不同,尽管由于这些动作序列的定义,其方式是一致的。此外,由于增强特征矩阵\(\hat{\mathbf{X}}\) 建立在原始文本属性的基础上,因此通常比 X 更有效,并能激励 GNN 编码器学习更多有价值的文本信息。
除了 GCL 方法外,我们还发现我们的模型还可以扩展到其他流行的图形生成模型(如 GraphMAE 和 S2GAE),以及标准 GNN 方法(如 GCN 和 GAT),只需将增强的特征和结构作为输入即可。
总结
本文主要讲了在进行对比学习时利用LLM来解决TAG对比学习中存在的一些问题。主要是通过LLM来生成节点文本的不同增强文本,然后对不同的生成文本进行加权来获取最终的增强表示,后续利用这些增强表示来进行对比学习,这属于属性增强,然后又提出了边增强的一些方式,也是先根据节点文本的嵌入表示来获取任意两个相似性,利用LLM来判断链接的节点最不相似的那几个是否应该断开,以及没有进行链接的节点里最相似的那一些节点对是否应该进行连接。这个就是边增强,后续就是正常的进行对比学习。