Graph Attention Networks(图自注意力网络)

目录

1 Introduction

2 GAT Architecture

2.1 Graph Attentional Layer

 2.2 Comparisons To Related Work

 3 Conclusions


1 Introduction

Graph Attention Networks又称为GATs,一种基于注意力的体系结构来执行图结构数据节点分类的网络。其思想计算图中每个节点的隐藏表示,通过关注它的邻居,遵循一个自我注意策略。注意架构有几个有趣的特性:

(1)操作是有效的,因为它可以在节点对之间并行;

(2)可以通过指定邻居的任意权值应用于具有不同程度的图节点;

(3)模型直接适用于归纳学习问题,包括模型必须推广到完全看不见的图的任务。

在四个具有挑战性的基准上验证了提出的方法:Cora、Citeseer和Pubmed引文网络以及诱导蛋白质相互作用数据集,实现或匹配了最先进的结果,突出了在处理任意结构图时基于注意的模型的潜力。

2 GAT Architecture

2.1 Graph Attentional Layer

构建一个单一的图注意力层,其输入是一组节点特征h={ \vec{h_{1}},\vec{h_{2}},...,\vec{h_{N}}}, \vec{h_{i}}\in R^{F},其中N是节点数,F是每个结点的特征数。该层产生一组新的节点特征(潜在的不同基数 {F}'), {h}'={ \vec{​{h}'_{1}},\vec{​{h}'_{2}},...,\vec{​{h}'_{N}}}, \vec{​{h}'_{i}}\in R^{​{F}'},作为输出。
为了获得足够的表达能力,将输入的特征转换为更高级的特征,至少需要一个可学习的线性变换。为此,作为一个初始步骤,对每个节点应用一个由权重矩阵 W\in R^{​{F}'*F}参数化的共享线性变换。然后,在节点上执行自注意力——一个共享的注意力机制  a:R^{​{F}'}*R^{​{F}'}\rightarrow R
 计算注意力系数 e_{ij}=a(W\vec{h}_{i},W\vec{h}_{j}),表明了节点 j 的特征对节点 i 的重要性。
通过实行掩码注意力将图结构注入到该机制中,只计算节点  j\in N_{i} 的 e_{ij},其中 N_{i} 是图中节点 i 的某个邻域(原论文中都是指节点 i (包括 i )的一阶邻居)。即节点 j 都是节点 i 的邻居。为了使注意力系数易于在不同节点之间进行比较,使用softmax函数对 j 的所有选择进行归一化:
\alpha _{ij}=softmax_{j}(e_{ij})=\frac{exp(e_{ij})}{\sum _{k\in N_{i}}exp(e_{ik})}
注意机制 a 是一个单层前馈神经网络,由权向量 \vec{a}\in R^{2{F}'}参数化,并应用LeakyReLU非线性函数,展开即 \alpha _{ij}=\frac{exp(LeakyReLU(\vec{a}^{T}[W\vec{h}_{i}\parallel W\vec{h}_{j}]))}{\sum _{k\in N_{i}}exp(LeakyReLU(\vec{a}^{T}[W\vec{h}_{i}\parallel W\vec{h}_{k}]))},其中  \parallel 表示拼接(concat)操作。
利用归一化注意系数计算其对应的特征的线性组合,作为每个节点的最终输出特征,再作用一个非线性函数  \sigma 得到目标节点隐藏状态更新 {\vec{h}}'_{i}=\sigma (\sum_{j\in N_{i}}\alpha _{ij}W\vec{h}_{j})

 为了稳定自我注意力机制的学习过程,将注意机制扩展到使用多头注意。具体来说,K个独立的注意机制执行方程{\vec{h}}'_{i}=\sigma (\sum_{j\in N_{i}}\alpha _{ij}W\vec{h}_{j})的变换,然后将它们的特征拼接(concat)起来,得到以下输出特征表示:{\vec{h}}'_{i}=\parallel _{k=1}^{K}\sigma (\sum_{j\in N_{i}}\alpha _{ij}^{k}W^{k}\vec{h}_{j}),其中\parallel 表示拼接操作,\alpha _{ij}^{k}为由第k个注意机制(a^{k})计算的归一化注意力系数,W^{k}为相应的输入线性变换的权重矩阵。请注意,在此设置中,最终返回的输出 {h}' 将由每个节点的K{F}'特性(而不是{F}')组成。

然而,执行多头注意网络的最终(预测)层,采用拼接(concat)方法不再是明智的选择,可以采用平均(avg)操作,并且延迟应用最终非线性函数,即{\vec{h}}'_{i}=\sigma (\frac{1}{K}\sum_{k=1}^{K}\sum_{j\in N_{i}}\alpha _{ij}^{k}W^{k}\vec{h}_{j})

 2.2 Comparisons To Related Work

1、计算高效的:自注意层的操作可以在所有边缘上并行化,且输出特征的计算也可以在所有节点上并行化,不需要特征分解或类似昂贵的矩阵操作。单一的GAT注意力头计算输出特征的复杂度为O(\mid V\mid F{F}'+\mid E\mid {F}'),这种复杂性与图卷积网络(GCNs)等基线方法相当。

2、模型可将不同的重要性分配给同一邻域的节点,实现模型容量的飞跃。此外,分析学习到的注意权重可能会带来可解释性方面的好处。

3、注意机制以共享的方式应用于图中的所有边,不依赖于对全局图结构或所有节点(特征)的预先访问(这是许多先前技术的限制)。

\circ图不需要是无向的(如果边j→i不存在,可以简单地不计算\alpha _{ij})

\circ适用于归纳学习——包括在训练过程中完全看不见的图上进行评估的任务

 3 Conclusions

图注意力网络(GATs),一种新型卷积风格的神经网络,它操作在图形结构的数据上,利用了掩码的自我注意层。图注意层的利用在这些网络计算效率高(不需要昂贵的矩阵操作,可并行在图中的所有节点);在处理不同大小的区域允许分配不同节点不同的重要性;不依赖于了解整个图结构从而解决许多理论问题与以前的基于光谱的方法。利用注意力的模型已经成功地在四个成熟的节点分类基准上实现或匹配了最先进的性能,包括转换和归纳(特别是用于测试完全不可见的图)。

图注意力网络有几个潜在的改进和扩展,可以作为未来的工作来解决,如一个特别有趣的研究方向是利用注意机制对模型的可解释性进行彻底的分析。此外,从应用程序的角度来看,将该方法扩展到执行图分类而不是节点分类也将是相关的。最后,将模型扩展到合并边缘特征(能够表明节点之间的关系)将能够解决更多种类的问题。

 

### 回答1: Graph Attention Networks(GAT)是一种用于神经网络的重要模型。GAT可以对任意大小和结构的进行监督学习和无监督学习。 GAT基于注意力机制,通过计算节点之间的注意力权重来对进行建模。与传统的神经网络不同之处在于,GAT在每个节点与其相邻节点之间引入了注意力权重。这样,每个节点可以根据其邻居节点的特征和注意力权重来更新自身特征表示。通过自适应地学习权重,GAT可以捕捉到不同节点之间的重要性和关联程度。 具体来说,GAT模型主要包括两个关键组件:多头注意力和特征变换。多头注意力允许模型在不同注意力机制下学习到多种节点表示。而特征变换则通过使用多个线性变换层来改变节点特征的维度。 在GAT模型中,每个节点都会与其邻居节点进行信息交互和特征更新。节点会计算与其邻居节点的相似度得分,然后通过softmax函数进行归一化,以得到注意力权重。最后,节点会将邻居节点的特征与对应的注意力权重相乘并求和,从而得到更新后的特征表示。 GAT模型的优点是能够解决不同节点之间的连接关系和重要性差异的建模问题。由于引入了注意力机制,GAT能够对相邻节点的特征进行自适应的加权处理,从而更好地捕捉到有意义的模式和关联。 总之,Graph Attention Networks是一种基于注意力机制的神经网络模型,能够对任意大小和结构的进行监督学习和无监督学习。它通过自适应地计算节点之间的注意力权重,实现了对中节点特征的有效建模。 GAT模型在社交网络、推荐系统和生物信息学等领域具有广泛的应用前景。 ### 回答2: Graph Attention Networks(GAT)是一种用于处理数据的深度学习模型。传统的神经网络模型使用了节点邻居的平均值来更新节点的表示,这种方法忽略了不同节点在中的重要性和关联度。而GAT模型引入了注意力机制,可以在节点之间动态地学习权重,从而更好地捕捉中节点之间的关系。 GAT模型的核心思想是在每个节点层使用自注意力机制来计算节点之间的注意力权重。具体来说,对于每个节点,GAT模型通过计算与之相邻的节点之间的相似度得到一个归一化的注意力权重。这个相似度可以通过神经网络模块学习得到,其中包括一个共享的权重矩阵。然后,通过将相邻节点的表示与对应的注意力权重相乘并求和,得到一个新的节点表示。这个过程可以通过多头注意力机制来并行计算,从而更好地捕捉节点的重要性和关联度。 GAT模型具有许多优点。首先,GAT模型可以自动学习节点之间的关系,并且可以根据节点之间的重要性分配不同的权重。其次,GAT模型具有较强的可解释性,可以通过注意力权重的可视化来解释模型的决策。此外,GAT模型还可以处理不同类型的数据,包括社交网络、生物网络和推荐系统等。最后,GAT模型在一些数据上表现出了较好的性能,在节点分类、链接预测和分类等任务中取得了良好的结果。 总之,Graph Attention Networks是一种用于处理数据的深度学习模型,通过引入注意力机制,可以动态地学习节点之间的权重,从而更好地捕捉中节点之间的关系。该模型具有较好的可解释性和适用性,在许多数据上取得了较好的性能。 ### 回答3: Graph Attention Networks(GAT)是一种基于神经网络的模型。GAT的目标是在数据上进行节点分类或边预测等任务。与传统的神经网络不同,GAT在节点之间引入了注意力机制,以便在中自动学习节点之间的关系。 GAT的核心思想是为每个节点分配不同的注意力权重,以更好地聚焦于重要的邻居节点。这种分配是通过学习每对节点间的注意力系数来实现的,而不是像传统方法一样使用固定的加权平均。 具体地说,GAT中的每个节点都有自己的特征向量表示,在计算节点之间的注意力权重时,GAT通过将节点对的特征向量与学习到的注意力权重相乘来评估节点之间的关系强度。然后,它将这些关系强度进行归一化处理,以产生每个节点对的注意力系数。最后,通过将注意力系数与邻居节点的特征向量相乘并进行加权求和,可以得到每个节点的输出特征。 与其他神经网络方法相比,GAT具有以下优点:1)它能够自动学习节点之间的关系,而不需要手动指定的拓扑结构;2)它能够根据节点之间的重要性自适应地分配注意力权重;3)它具有较强的可解释性,可以通过分析注意力系数来理解节点之间的关系。 GAT已经在许多数据任务上取得了很好的效果,如社交网络分析、推荐系统和药物发现等。由于其良好的性能和可解释性,GAT在学术界和工业界都得到了广泛的应用,并且也有很多相关的改进和扩展方法出现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值