Graph Attention Networks(图自注意力网络)

最新推荐文章于 2025-02-13 03:00:00 发布

猪猪的菜牙

最新推荐文章于 2025-02-13 03:00:00 发布

阅读量9.3k

点赞数 25

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_53148422/article/details/125818851

版权

1 Introduction

2 GAT Architecture

2.1 Graph Attentional Layer

2.2 Comparisons To Related Work

3 Conclusions

1 Introduction

Graph Attention Networks又称为GATs，一种基于注意力的体系结构来执行图结构数据节点分类的网络。其思想是计算图中每个节点的隐藏表示，通过关注它的邻居，遵循一个自我注意策略。注意架构有几个有趣的特性：

(1)操作是有效的，因为它可以在节点对之间并行；

(2)可以通过指定邻居的任意权值应用于具有不同程度的图节点;

(3)模型直接适用于归纳学习问题，包括模型必须推广到完全看不见的图的任务。

在四个具有挑战性的基准上验证了提出的方法：Cora、Citeseer和Pubmed引文网络以及诱导蛋白质相互作用数据集，实现或匹配了最先进的结果，突出了在处理任意结构图时基于注意的模型的潜力。

2 GAT Architecture

2.1 Graph Attentional Layer

构建一个单一的图注意力层，其输入是一组节点特征h={ $\vec{h_{1}},\vec{h_{2}},...,\vec{h_{N}}$ }， $\vec{h_{i}}\in R^{F}$ ，其中N是节点数,F是每个结点的特征数。该层产生一组新的节点特征(潜在的不同基数 ${F}'$ ), ${h}'=$ { $\vec{{h}'_{1}},\vec{{h}'_{2}},...,\vec{{h}'_{N}}$ }， $\vec{{h}'_{i}}\in R^{{F}'}$ ，作为输出。

为了获得足够的表达能力，将输入的特征转换为更高级的特征，至少需要一个可学习的线性变换。为此，作为一个初始步骤，对每个节点应用一个由权重矩阵 $W\in R^{{F}'*F}$ 参数化的共享线性变换。然后，在节点上执行自注意力——一个共享的注意力机制 $a:R^{{F}'}*R^{{F}'}\rightarrow R$

计算注意力系数 $e_{ij}=a(W\vec{h}_{i},W\vec{h}_{j})$ ，表明了节点 j 的特征对节点 i 的重要性。

通过实行掩码注意力将图结构注入到该机制中，只计算节点 $j\in N_{i}$ 的 $e_{ij}$ ，其中 $N_{i}$ 是图中节点 i 的某个邻域（原论文中都是指节点 i (包括 i )的一阶邻居）。即节点 j 都是节点 i 的邻居。为了使注意力系数易于在不同节点之间进行比较，使用softmax函数对 j 的所有选择进行归一化：

$\alpha _{ij}=softmax_{j}(e_{ij})=\frac{exp(e_{ij})}{\sum _{k\in N_{i}}exp(e_{ik})}$ 。

注意机制 a 是一个单层前馈神经网络，由权向量 $\vec{a}\in R^{2{F}'}$ 参数化，并应用LeakyReLU非线性函数，展开即 $\alpha _{ij}=\frac{exp(LeakyReLU(\vec{a}^{T}[W\vec{h}_{i}\parallel W\vec{h}_{j}]))}{\sum _{k\in N_{i}}exp(LeakyReLU(\vec{a}^{T}[W\vec{h}_{i}\parallel W\vec{h}_{k}]))}$ ，其中 $\parallel$ 表示拼接(concat)操作。

利用归一化注意系数计算其对应的特征的线性组合，作为每个节点的最终输出特征，再作用一个非线性函数 $\sigma$ 得到目标节点隐藏状态更新 ${\vec{h}}'_{i}=\sigma (\sum_{j\in N_{i}}\alpha _{ij}W\vec{h}_{j})$ 。

为了稳定自我注意力机制的学习过程，将注意机制扩展到使用多头注意。具体来说，K个独立的注意机制执行方程 ${\vec{h}}'_{i}=\sigma (\sum_{j\in N_{i}}\alpha _{ij}W\vec{h}_{j})$ 的变换，然后将它们的特征拼接(concat)起来，得到以下输出特征表示： ${\vec{h}}'_{i}=\parallel _{k=1}^{K}\sigma (\sum_{j\in N_{i}}\alpha _{ij}^{k}W^{k}\vec{h}_{j})$ ，其中 $\parallel$ 表示拼接操作， $\alpha _{ij}^{k}$ 为由第k个注意机制( $a^{k}$ )计算的归一化注意力系数， $W^{k}$ 为相应的输入线性变换的权重矩阵。请注意，在此设置中，最终返回的输出 ${h}'$ 将由每个节点的 $K{F}'$ 特性(而不是 ${F}'$ )组成。

然而，执行多头注意网络的最终（预测）层，采用拼接(concat)方法不再是明智的选择，可以采用平均(avg)操作，并且延迟应用最终非线性函数，即 ${\vec{h}}'_{i}=\sigma (\frac{1}{K}\sum_{k=1}^{K}\sum_{j\in N_{i}}\alpha _{ij}^{k}W^{k}\vec{h}_{j})$ 。

2.2 Comparisons To Related Work

1、计算高效的：自注意层的操作可以在所有边缘上并行化，且输出特征的计算也可以在所有节点上并行化，不需要特征分解或类似昂贵的矩阵操作。单一的GAT注意力头计算输出特征的复杂度为 $O(\mid V\mid F{F}'+\mid E\mid {F}')$ ，这种复杂性与图卷积网络(GCNs)等基线方法相当。

2、模型可将不同的重要性分配给同一邻域的节点，实现模型容量的飞跃。此外，分析学习到的注意权重可能会带来可解释性方面的好处。

3、注意机制以共享的方式应用于图中的所有边，不依赖于对全局图结构或所有节点(特征）的预先访问（这是许多先前技术的限制）。

$\circ$ 图不需要是无向的(如果边j→i不存在，可以简单地不计算 $\alpha _{ij}$ )

$\circ$ 适用于归纳学习——包括在训练过程中完全看不见的图上进行评估的任务

3 Conclusions

图注意力网络(GATs)，一种新型卷积风格的神经网络，它操作在图形结构的数据上，利用了掩码的自我注意层。图注意层的利用在这些网络计算效率高（不需要昂贵的矩阵操作，可并行在图中的所有节点）；在处理不同大小的区域允许分配不同节点不同的重要性；不依赖于了解整个图结构从而解决许多理论问题与以前的基于光谱的方法。利用注意力的模型已经成功地在四个成熟的节点分类基准上实现或匹配了最先进的性能，包括转换和归纳（特别是用于测试完全不可见的图）。

图注意力网络有几个潜在的改进和扩展，可以作为未来的工作来解决，如一个特别有趣的研究方向是利用注意机制对模型的可解释性进行彻底的分析。此外，从应用程序的角度来看，将该方法扩展到执行图分类而不是节点分类也将是相关的。最后，将模型扩展到合并边缘特征（能够表明节点之间的关系）将能够解决更多种类的问题。