图变换器：为图数据增强神经网络架构

本文链接：https://blog.csdn.net/weixin_44292902/article/details/142387894

人工智能咨询培训老师叶梓转载标明出处

当面对图数据时，尤其是那些拓扑结构重要的图，传统的 Transformer 架构并未能充分利用图的连接性特征，导致性能受限。为了解决这一问题，新加坡南洋理工大学的研究人员提出了一种新的神经网络架构——图变换器（Graph Transformer），以泛化 Transformer 模型至任意图。

方法

在自然语言处理（NLP）中，Transformer 将句子视为一个完全连接的图，其中每个单词与其他所有单词都存在连接。这种设计在NLP中是可行的，因为：

单词间稀疏连接的不确定性：句子中单词的依赖关系可能随上下文、用户视角和具体应用而变化，因此，让每个单词都与其他单词建立连接是有意义的。
计算可行性：句子通常包含的单词数量较少（通常少于几百个），这使得在完全连接的图上训练大型模型成为可能。

然而，在图数据集中，图的连接性结构是任意的，节点数量可能达到数百万甚至数十亿。这种结构为我们提供了丰富的信息，可以作为神经网络的归纳偏置。鉴于节点数量的庞大，实际的图数据集中不可能为每个节点创建完全连接的图。因此，理想的Graph Transformer应该让每个节点只关注其局部邻居，这与图神经网络（GNNs）的做法相同。

在NLP中，基于Transformer的模型通常会为每个单词提供一个位置编码，这对于确保每个单词具有独特的表示并保留距离信息至关重要。然而，在图数据中设计独特的节点位置是具有挑战性的，因为存在对称性，这使得无法定义规范的节点位置信息。

大多数在图数据集上训练的GNN学习的结构化节点信息与节点位置无关。这也正是为什么一些简单的基于注意力的模型（如GAT），其注意力机制是基于局部邻域连接性而非全图连接性，在图数据集上无法取得有竞争力的性能。

为了解决这一问题，Dwivedi等人（2020年）利用图结构预计算拉普拉斯特征向量，并将其用作节点的位置信息。拉普拉斯特征向量是原始Transformer中位置编码的泛化，更好地帮助编码距离感知信息（即，邻近节点具有相似的位置特征，而更远的节点则具有不同的位置特征）。在Graph Transformer中，使用拉普拉斯特征向量作为位置编码（PE），并在训练过程中随机翻转特征向量的符号，以解决特征向量由于任意符号而产生的多重性问题。

图1展示了带有拉普拉斯特征向量（Laplacian Eigvectors）作为位置编码（Positional Encoding）的图变换器的架构。图中分为两部分：左侧是仅对节点嵌入进行操作以计算注意力分数的图变换器；右侧是包含边特征的图变换器，展示了如何明确修改相应的成对注意力分数。

图变换器层：

输入：

输入部分涉及将图中的节点特征和边特征通过线性变换映射到一个高维的隐藏特征空间。这允许模型在后续的处理中捕捉更复杂的特征和关系。

位置编码：

在位置编码步骤中，使用预计算的拉普拉斯矩阵的特征向量作为节点的位置编码。这些位置编码被添加到节点的隐藏特征中，帮助模型理解节点在图中的拓扑位置。拉普拉斯特征向量能够捕捉节点间的相对距离，是一种有效的位置编码方法。

图变换器层（带边缘特征）：

设计目的：

这一部分是为了更好地利用图中的边特征信息，如图中化学键的类型或社交网络中的互动类型。通过显式地处理这些边特征，模型可以更准确地理解和预测图的结构和性质。

信息注入：

在这一架构中，边特征被注入到模型中，通过将计算得到的隐式边分数（基于注意力机制）与实际的边特征相乘。这种方法允许模型在计算节点间的注意力时，同时考虑节点间的实际关系和属性。

图变换器层的更新方程：

节点更新：

节点的更新通过注意力机制进行，其中每个节点根据其邻居节点的表示和连接性来更新自己的状态。更新后的节点特征再通过一个前馈神经网络（FFN）进一步处理，以捕捉更复杂的非线性关系。

边缘更新：

与节点更新类似，边特征也通过注意力机制和前馈神经网络进行更新。这允许模型学习到边的复杂特征，如边的强度或类型，这对于某些任务（如图分类或链接预测）可能非常重要。

任务相关的 MLP 层：

在图变换器的最后一层，节点表示被传递给一个基于任务的多层感知器（MLP）网络，以生成针对特定任务的输出，如图分类或节点分类。这些MLP层可以根据任务的需求进行定制，以优化模型的性能。

这种架构不仅提高了模型在图数据分析中的性能，而且为未来的图表示学习和深度学习研究提供了新的方向。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

实验

实验评估了所提出的图变换器在三个基准图数据集上的性能，分别是ZINC、PATTERN和CLUSTER。这些数据集从最近的GNN基准测试中选取，用于测试图变换器在不同任务上的表现。

ZINC（图回归）：ZINC是一个分子数据集，任务是对受限溶解度的图性质进行回归。每个ZINC分子被表示为一个图，原子作为节点，键作为边。由于该数据集在键作为边属性方面有丰富的特征信息，故使用了带有边特征的“图变换器”。实验使用了12K子集。
PATTERN（节点分类）：PATTERN是一个使用随机块模型（SBM）生成的节点分类数据集，任务是对节点进行2社区分类。由于PATTERN图没有显式的边特征，故使用了简单的“图变换器”。该数据集包含14K个图。
CLUSTER（节点分类）：CLUSTER也是一个使用SBM模型合成的数据集，任务是给每个节点分配一个聚类标签，共有6个聚类标签。与PATTERN类似，CLUSTER图没有显式的边特征，故同样使用了简单的“图变换器”。该数据集包含12K个图。

实验遵循Dwivedi等人（2020年）基于PyTorch和DGL的基准测试协议。使用了10层图变换器层，每层有8个注意力头和任意隐藏维度，以使总可训练参数数量在500k的范围内。采用学习率衰减策略训练模型，当学习率降至1×10^-6时训练停止。每个实验使用4个不同的种子进行，报告4次运行的平均性能。

表1展示了在所有数据集上Graph Transformer（GT）的结果。性能指标为ZINC的平均绝对误差（MAE），PATTERN和CLUSTER的准确率（Acc）。结果（除ZINC外，越高越好）是4次运行的平均值。

表2展示了我们的最佳性能分数与GNN基线（GCN、GAT和GatedGCN）的比较。值得注意的是，只有GatedGCN和GT模型使用了ZINC中的可用边属性。

实验分析：

拉普拉斯位置编码（Laplacian PE）和批量归一化（Batch Normalization）：当使用拉普拉斯PE对节点位置进行编码，并且选择批量归一化而非层归一化时，变换器网络在图上的表现最佳。如表1所示，在所有三个基准数据集上，这种设置下实验得分最高。
性能比较：所提出的架构显著优于基线各向同性和各向异性GNN（GCN和GAT），有助于缩小原始变换器和图变换器之间的差距。值得注意的是本架构作为一个新鲜且改进的基于注意力的GNN基线，超越了GAT（见表2），GAT采用了受原始变换器启发的多头注意力，并经常在文献中作为基于注意力的GNN模型的基线。
稀疏图连接性：正如预期的那样，稀疏图连接性是具有任意图结构的数据集的关键归纳偏置，通过比较稀疏与完全图实验进行了证明。
带有边特征的图变换器扩展：在ZINC数据集上，带有边特征的图变换器扩展接近最佳性能的GNN，即GatedGCN。这一架构特别为可以利用领域信息和成对交互信息以实现最大学习性能的数据集带来了激动人心的前景。

与Graph-BERT中使用的位置编码（PE）的比较：

Graph-BERT在固定大小的采样子图上操作，其中每个节点在子图中关注每个其他节点。尽管采样对于并行化和效率很有帮助，但原始图结构并未直接在层中使用。Graph-BERT使用了结合节点PE方案来通知模型节点的结构、位置和距离信息。

表3展示了使用不同PE方案的GraphTransformer（GT）的分析。符号"x"表示没有PE；"L"表示我们的Laplacian PE；"W"表示Graph-BERT中的WL-PE。粗体表示每个数据集上表现最好的模型。拉普拉斯PE在捕获节点的结构和位置信息方面更好，这本质上是使用三种Graph-BERT PE的目标，因此它们优于WL-PE。此外，WL-PE倾向于过度拟合SBM数据集，导致泛化能力较差。

论文中相关代码和实验可以在以下GitHub链接中找到： Graph Transformer GitHub

论文链接：https://arxiv.org/pdf/2012.09699