论文-Multi-hop Attention Graph Neural Networks

文章介绍了MAGNA,一种图神经网络模型,通过多跳注意力机制捕捉非直接连接节点间的交互,解决了一般GNN的局部视阈问题。实验结果表明,MAGNA在节点分类和知识图谱完成任务中表现出色,优于现有方法。
摘要由CSDN通过智能技术生成

Multi-hop Attention Graph Neural Networks

多跳注意力图神经网络



摘要

图神经网络(GNN)中的自注意机制在许多图表示学习任务上取得了最先进的性能。目前,在每一层,一个节点都为其每个图邻居独立计算注意力。然而,这种关注机制是有限的,因为它不考虑没有通过边缘连接但可以提供重要网络上下文信息的节点。在这里,我们提出了多跳注意力图神经网络(MAGNA),这是一种将多跳上下文信息纳入GNN注意力计算的每一层的原则性方法。MAGNA在整个网络中扩散注意力得分,这增加了GNN每一层的“感受野”。与以前的方法不同,MAGNA使用注意力值上的扩散先验,以有效地考虑未连接节点对之间的所有路径。我们从理论和实验上证明,MAGNA捕获了每一层中的大规模结构信息,并具有低通效应,可以从图中消除有噪声的高频信息。关于节点分类和知识图完成基准的实验结果表明,MAGNA实现了最先进的结果:MAGNA在Cora、Citeseer和Pubmed上比以前的最先进技术实现了高达5:7%的相对误差降低。MAGNA还在大规模开放图基准数据集上获得了强大的性能。最后,在知识图完成方面,MAGNA在WN18RR和FB15k-237的四个不同性能指标方面取得了最新进展。


一、引言

自我注意[Bahdanau等人,2015; Vaswani等人,2017]已经在许多领域推动了最先进的技术,包括图形表示学习[Devlin等人,2019年]。图形注意力网络(GAT)[Veliˇckovi´c et al.,2018]和相关模型[Li等人,2018; Wang等人,2019 a; Liu等人,2019; Oono和Suzuki,2020]开发了图形神经网络(GNN)的注意力机制,该机制计算由边连接的节点之间的注意力分数,允许模型关注节点邻居的消息。
然而,在由边缘连接的成对节点上进行这种注意力计算,意味着一个节点只能对其近邻进行注意力计算,以计算其(下一层)表征。这意味着单个 GNN 层的感受野仅限于一跳网络邻域。虽然堆叠多个 GAT 层原则上可以扩大感受野并学习非邻近的交互,但这种深度 GAT 架构存在过平滑问题[Wang 等人,2019a;Liu 等人,2019;Oono 和 Suzuki,2020],表现不佳。此外,单个 GAT 层中的边缘注意力完全基于边缘端点的两个节点的表征,而不依赖于它们的图邻域上下文。换句话说,GAT 的单跳关注机制限制了其探索更广泛图结构之间关系的能力。尽管之前的工作[Xu et al.,2018;Klicpera et al.,2019b]已经显示出在单层中执行多跳消息传递的优势,但这些方法不是基于图注意力的。因此,将多跳相邻上下文纳入图神经网络的注意力计算还有待探索。
图1:多跳注意扩散。考虑在节点a和d上进行预测。左:单个GAT层计算直接连接的节点对(即边)之间的注意力得分α,因此  = 0。此外,A和B之间的注意力 仅依赖于A和B的节点表示。
右图 单个 MAGNA 层:(1) 通过多跳注意力 α 0 D;C 捕获 D 的两跳邻居节点 C 的信息;(2) 通过基于图邻接矩阵幂的扩散注意力,考虑节点之间的所有路径,从而增强图结构学习。MAGNA 利用节点 D 的特征计算 A 和 B 之间的注意力。
在这里插入图片描述
在这里,我们提出了多跳注意力图神经网络(MAGNA),这是一种针对图结构数据的有效多跳自注意力机制。MAGNA 使用一个新颖的图注意力扩散层(图 1),我们首先计算边上的注意力权重(用实箭头表示),然后通过注意力扩散过程,利用边上的注意力权重计算断开的节点对之间的自注意力权重(虚箭头表示)。
我们的模型有两大优势:(1) MAGNA 可捕捉到非直接连接但可能相距多跳的节点之间的远距离交互。因此,该模型能从多个跳之外的重要节点进行有效的远距离信息传递。(2) MAGNA 中的注意力计算与上下文有关。GATs [Velickovi ˇ c´ et al, 2018]中的注意力值只取决于上一层的节点表征,在非连接节点对之间的注意力值为零。相比之下,对于所选多跳邻域内的任何一对节点,MAGNA 会通过汇总连接两个节点的所有可能路径(长度≥ 1)的关注度分数来计算关注度。
从数学上讲,我们表明MAGNA将个性化页面排名(PPR)置于注意力值之前。我们进一步应用谱图分析表明,MAGNA强调大规模的图结构和降低图中的高频噪声。具体来说,MAGNA放大了图中对应于大规模结构的低拉普拉斯特征值,抑制了图中对应于更多噪声和细粒度信息的高拉普拉斯特征值。
我们在标准数据集上进行了半监督节点分类和知识图谱补全的实验。实验表明,MAGNA达到了最先进的结果:在Cora、Citeseer和Pubmed上,MAGNA 与之前的一流技术相比,相对误差减少了 5.7%。MAGNA在大规模Open Graph基准数据集上也获得了更好的性能。在知识图谱补全方面,MAGNA在WN18RR和FB15k-237的四个指标上都取得了最先进的进步,其中Hit指标的最大增幅为7.1%,达到1。
此外,我们表明,只有3层和每层6跳宽注意力的MAGNA显著优于具有18层的GAT,即使这两种架构具有相同的接受场。此外,我们的消融研究揭示了 MAGNA 重要组成部分的协同效应,包括层归一化和多跳扩散注意。我们进一步观察到,与 GAT 相比,MAGNA 学习到的注意力值具有更高的多样性,这表明 MAGNA 能够更好地关注重要节点。


二、多跳注意图神经网络(MAGNA)

我们首先讨论了背景,并解释了新颖的多跳注意力扩散模块和 MAGNA 架构。

2.1 前言

在这里插入图片描述
在这里插入图片描述

2.2 多跳注意扩散

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在附录中,我们给出了依赖于公式5展开的证明。

在这里插入图片描述

2.3 基于多跳注意的GNN架构

图2提供了可以多次堆叠的MAGNA块的体系结构概述。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
深度聚合 此外,我们的 MAGNA 模块包含一个全连接前馈子层,该子层由两层前馈网络组成。我们还在两个子层中添加了层归一化和残差连接,从而使每个区块的聚合步骤更具表现力[Xiong et al, 2020]:
在这里插入图片描述
在这里插入图片描述


三、图的注意力扩散分析

在本节中,我们从图上的离散信号处理的角度来研究MAGNA的好处[Sandryhaila和Moura, 2013]。我们的第一个结果表明,MAGNA可以更好地捕获大规模的结构信息。我们的第二个结果探讨了MAGNA和个性化PageRank (PPR)之间的关系。

3.1 图注意扩散的谱性质

在这里插入图片描述

3.2 个性化PageRank满足图形注意力扩散

在这里插入图片描述
MAGNA 中的参数 α 相当于 PPR 的远距传输概率。PPR 为加权图(注意力矩阵 A 的权重)中的节点之间提供了良好的相关性得分。总之,MAGNA 将 PPR 优先级置于节点成对注意力得分之上:节点 i 和 j 之间的扩散注意力取决于 i 和 j 之间所有路径边上的注意力得分。


四、实验

我们在两个经典任务上对MAGNA进行了评估5:(1)在节点分类上,我们平均实现了5:7%的相对误差减少;(2)在知识图谱完成度方面,Hit@1指标相对提高了7:1%。

4.1 任务1:节点分类

数据集 我们采用四个基准数据集进行节点分类:(1)标准引文网络基准数据集 Cora、Citeseer 和 Pubmed [Sen et al, 2008; Kipf and Welling, 2017];(2)来自开放图谱基准的 170k 节点和 120 万条边的基准数据集 ogbn-arxiv [Weihua Hu, 2020]。我们遵循所有数据集的标准数据分割。有关这些数据集的更多信息,请参阅附录。
基线 我们与一整套最先进的 GNN 方法进行了比较,包括 GCNs[Kipf和Welling,2017]、基于切比雪夫滤波器的GCNs[Defferrard等人,2016]、DualGCN[Zhuang和Ma,2018]、JKNet[Xu等人,2018]、LGCN[Gao等人,2018]、 Diffusion-GCN(Diff-GCN)[Klicpera 等,2019b]、APPNP [Klicpera 等,2019a]、Graph U-Nets(g-U-Nets)[Gao 和 Ji,2019]以及 GAT [Velickovic .et al,2018]。
实验设置 对于Cora, Citeseer和Pubmed数据集,我们使用6个隐藏维度为512的MAGNA块和8个注意头。对于大规模ogbn-arxiv数据集,我们使用2个隐藏维度为128的MAGNA块和8个注意头。请参阅附录了解所有超参数和评估设置的详细描述。
结果 MAGNA 在所有数据集上都取得了最佳成绩(表 1 和表 2) ,超过了 Diffusion GCN、APPNP 和 JKNet 等多跳基线。基线性能及其嵌入维度来自之前的论文。附录表 6 进一步表明,大 512 维嵌入只对表现力强的 MAGNA 有利,而 GAT 和 Diffusion GCN 的性能则有所下降。
在这里插入图片描述
在这里插入图片描述

消融实验 我们报告了(表1)从每个MAGNA层中去除MAGNA各组成部分(层归一化、注意扩散和前馈层)后的模型性能。注意,该模型相当于没有这三个组件的GAT。我们观察到扩散和层归一化在提高所有数据集的节点分类性能方面起着至关重要的作用。由于MAGNA以递归方式计算注意力扩散,因此层归一化对于确保训练稳定性至关重要[Ba等,2016]。同时,与GAT(见表1倒数第二行)相比,注意扩散允许每层中的多跳注意,从而有利于节点分类。

4.2 任务2:知识图谱完成

数据集 我们在标准基准知识图上评估MAGNA: WN18RR [Dettmers等,2018]和FB15K-237 [Toutanova和Chen, 2015]。这些kg的统计数据见附录。
基线 我们将MAGNA与最先进的基线进行比较,包括(1)基于平移距离的模型:TransE [Bordes等人,2013]及其最新扩展RotatE [Sun等人,2019]、OTE [Tang等人,2020]和ROTH [Chami等人,2020];(2)基于语义匹配的模型:ComplEx [Trouillon等人,2016],QuatE [Zhang等人,2019],CoKE [Wang等人,2019b], ConvE [Dettmers等人,2018],DistMult [Yang等人,2015],TuckER [Balazevic等人,2019]和AutoSF [Zhang等人,2020b];(3)基于gnn的模型:R-GCN [Schlichtkrull等人,2018]、SACN [Shang等人,2019]和A2N [Bansal等人,2019]。
实验设置 我们使用多层 MAGNA 作为 FB15k-237 和 WN18RR 的编码器。我们随机初始化实体嵌入和关系嵌入作为编码器的输入,并将初始化实体/关系向量的维度设置为 DistMult [Yang 等人,2015] 中使用的 100。我们在训练过程中通过随机搜索选择 MAGNA 模型的其他参数,包括层数、隐藏维度、头数、top-k、学习率、跳数、远距传输概率 α 和辍学率(这些参数的设置见附录)。
训练程序 我们使用以前的KG嵌入模型中使用的标准训练程序Balazevic等人,2019;Dettmers等人,2018。我们遵循一个编码器-解码器框架:编码器应用提出的MAGNA模型来计算实体嵌入。解码器在给定嵌入的情况下进行链路预测。为了展示MAGNA的强大功能,我们使用了一个简单的解码器DistMult [Yang et al ., 2015]。
评估 我们使用标准分割作为基准,并在给定头(尾)实体和关系类型的情况下使用预测尾(头)实体的标准测试程序。我们完全遵循之前所有作品使用的评估,即平均倒数秩(MRR),平均秩(MR)和K的命中率(H@K)。关于这个标准设置的详细描述,请参见附录。
结果 MAGNA在所有四个指标的知识图完成方面都达到了最先进的水平(表3)。与最新的浅嵌入方法(QuatE)和深嵌入方法(SACN)相比,MAGNA都具有优势。要注意的是,在使用相同解码器(DistMult)的情况下,MAGNA 使用自己的嵌入式方法比使用相应的 DistMult 嵌入式方法有了大幅提高。
在这里插入图片描述

4.3 MAGNA模型分析

本文给出了(1)频谱分析结果,(2)对超参数变化的鲁棒性,以及(3)注意力分布分析,以显示MAGNA的优势。
光谱分析:为什么MAGNA适用于节点分类?我们计算了注意力矩阵A的拉普拉斯图特征值 ,并与扩散矩阵 的拉普拉斯图特征值 进行了比较。图3 (a)显示了Cora数据集上的比率 。图中大规模结构对应的低特征值被放大(放大至8倍),而带有噪声信息的特征向量对应的高特征值被抑制[Klicpera et al ., 2019b]。

MAGNA 模型深度 在这里,我们通过将GCN、扩散GCN(基于PPR)GAT和我们的MAGNA层的数量改变为3、6、12、18和24来进行实验,用于Cora上的节点分类。图3 (b)的结果表明,由于过度平滑问题,深层GCN、扩散-GCN和GAT(即使有剩余连接)的性能下降[Li et al ., 2018;Wang et al ., 2019a]。相比之下,即使有18层,MAGNA模型也能获得一致的最佳结果,使深层MAGNA模型具有鲁棒性和表现力。请注意,18层的GAT不能胜过3层和K=6跳的MAGNA,尽管它们具有相同的接受野。
在这里插入图片描述
我们还观察到,当α > 0.25时,精度显著下降。这是因为小α增加了低通效应(图3 (a))。然而,α太小会导致模型只关注最大规模的图结构,从而降低性能。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


五、相关工作

我们提出的MAGNA属于图神经网络(GNN)模型家族[Battaglia等人,2018;Wu et al ., 2020;Kipf and Welling, 2017;Hamilton等人,2017],同时利用图注意和扩散技术。
图注意神经网络(GATs) 将注意力操作推广到图形数据。GATs允许在特征聚合步骤中为相同邻域的节点分配不同的重要性[Velickovi等人,2018]。基于这样的框架,已经提出了不同的基于注意力的gnn,包括GaAN [Zhang等人,2018],AGNN [Thekumparampil等人,2018],GeniePath [Liu等人,2019]。然而,这些模型只考虑每层特征聚合的直接邻居,并且在深入时遭受过平滑[Wang et al ., 2019a]。
基于扩散的图神经网络 最近,图扩散卷积[Klicpera et al, 2019b; Klicpera et al, 2019a]提出,通过稀疏化一种广义的图扩散形式,在每一层聚合来自更大(多跳)邻域的信息。针对多尺度图卷积网络,[Liao et al, 2019; Luan et al, 2019; Xhonneux et al, 2020; Klicpera et al, 2019a]也探讨了这一想法。然而,这些方法没有纳入对模型性能至关重要的注意力机制,也没有利用边缘嵌入(如知识图谱)[Klicpera et al, 2019b]。我们的方法定义了一种新颖的多跳上下文依赖自注意 GNN,解决了 GAT 架构的过度平滑问题 [Wang 等人,2019a]。[Isufi等人,2020;Cucurull等人,2018;Feng等人,2019]也扩展了多跳信息聚合的关注机制,但它们需要不同的参数集来计算对不同跳的邻居的关注,这使得这些方法与MAGNA相比要昂贵得多,而且没有扩展到知识图谱设置。


六、结论

我们提出了多跳注意力图神经网络(MAGNA),它通过注意力扩散、层归一化和深度聚合,在单层中汇集了图注意力和扩散技术的优势。MAGNA 在单层中实现了图中任意一对节点之间的上下文相关注意力,增强了大规模结构信息,并学习到了更多的注意力分布信息。在节点分类和完成知识图谱的标准任务方面,MAGNA 比所有先进方法都更胜一筹。

paper: link
code: link

  • 21
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值