论文 | 图理论 | 用于图学习的异步神经网络

原创 Lukas F, Roger W 图科学实验室Graph Science Lab 2022-05-26 11:53

现有的图神经网络采用同步分布式计算模型,每轮聚合其邻居,导致过度平滑等问题,限制了其表达能力。这篇论文研究异步消息传递 (AMP),这是一种将基于神经网络的学习应用于图的新范式。AMP基于异步模型,其中节点分别对其邻居的消息做出反应。论文证明AMP可以模拟同步GNN,并且AMP在理论上可以区分任何一对图。论文通过实验验证了AMP的表现力AMP可能更适合在图形中远距离传播消息,并且在多个图形分类基准上表现良好。
在这里插入图片描述
论文:

https://arxiv.org/abs/2205.12245

亮点:

AMP一种用于在图中学习神经架构的新范式。AMP中的节点通过交换和响应单个消息来异步交互,而不是节点在轮次中同步操作。

AMP可以模拟GNN,并且具有消息延迟的AMP可以超越所有Weisfeiler-Lehman测试并解决任何图同构问题。

AMP可以解决传统GNN在长距离(多层)传播信息时遇到的欠延伸(underreaching)、过度平滑(oversmoothing)和过度抑制(oversquashing)问题。

AMP 在区分 1-WL 算法之外的图方面优于所有现有方法。AMP 非常适合远距离传播信息。

  1. 背景

在 GNN 中,所有节点同时说话,节点不监听单个邻居,而只监听所有邻居的聚合消息。作者认为节点使用的这种消息传递的方式并不理想。因为当邻居说话时,人类会礼貌地倾听,然后决定信息是否相关,以及传递什么信息。

人类交流的方式符合异步交流模型。在异步模型中,节点不会同时进行通信。实际上,节点仅在最初或在接收到消息时才采取行动。如果一个节点从它的一个邻居那里收到一条新消息,它会更新它的状态,然后可能会自己发送一条消息。这允许节点监听单个邻居,而不仅仅是聚合。 下图说明了这种交互如何发挥作用。

在这里插入图片描述
用AMP检测醇(带有OH基团的C原子)。H原子向它们的邻居发送信息。每个节点都可以选择忽略消息或对其做出反应。C原子对H个邻居不感兴趣并丢弃该消息。另一方面,O原子自己做出反应并发送消息。该消息现在与C原子相关。

  1. 相关工作

过度平滑(oversmoothing):GNN每一层平均,从而平滑邻域信息和节点特征。这种效应导致特征在一些层之后收敛,这就是所谓的过度平滑问题。通过对节点和边进行采样以用于消息传递、利用跳过连接或附加正则化项,可以解决了过度平滑问题。由于AMP的异步性,AMP不会对邻域消息进行平均,也不会面临过度平滑问题。

欠延伸(underreaching):具有k层的普通GNN最多只能学习k跳以外的节点。如果一个节点需要k+1跳以外的信息,它就不能正常工作。这个问题被称为欠延伸。进行全球特征交换或使用扩散过程传播信息,或者防止过度平滑的方法可用于解决欠延伸问题,因为我们可以使用更多层并增加邻域大小。在AMP中,由于异步性,某些节点可能比其他节点更频繁地参与计算/通信;这有助于AMP从更远的地方收集信息,这是针对欠延伸的一种对策。

过度抑制(oversquashing):在图中,k跳邻域的大小随着k的增加而显着增长。这需要将越来越多的信息压缩到一个静态大小的节点嵌入中。最终,这会导致拥塞问题(太多信息必须通过瓶颈),这在分布式计算中是众所周知的,并且被称为GNN的过度抑制。解决过度抑制的一种方法是引入额外的边,作为非直接邻居的捷径。有助于防止过度平滑的基于丢弃的方法也可以通过减少邻域的大小来减少过度抑制。AMP本质上比同步GNN更具弹性,因为信息可以以更有指导的方式传递。

  1. 异步模型

通常AMP选择一个节点并向其发送一个特殊的初始消息以开始计算。节点处于状态h,当接收到消息m时,节点可以对其做出反应,改变其内部状态。然后,节点可以根据其(可能的)新状态决定发出消息m0。节点不知道有多少邻居节点将收到该消息。因此,m0不包含关于接收者的信息。如果我们孤立地观察一个节点的动态,这种行为模仿了在自然语言处理中非常流行和成功的序列到序列模型的行为。原则上,每个节点都接收到一个消息序列,该节点可以使用该消息序列创建新的内部状态并生成一个消息序列。节点不需要在每一步都产生消息。例如,在图2中,节点在步骤i+1中没有发送任何消息。
在这里插入图片描述
一个单独的节点的AMP动态。节点接收到一个消息序列,它可以用来更新其状态并(可能,并非总是如此,例如hi+1)发出一个消息序列。

与NLP序列到序列模型相比,异步消息传递必须克服两个额外的挑战:未知输入序列和部分信息可用。
在这里插入图片描述
节点v需要来自s的消息,但只有当t和u都转发消息时,节点v才能收到消息,而t和u对s不感兴趣。

AMP长距离信息传递。要将信息发送到远处的节点,必须发送和接收许多消息。这将导致多次推出节点更新功能,导致训练缓慢且不稳定。

  1. AMP的表达能力

研究AMP和消息传递GNN之间的关系。AMP可以模拟GNN的执行。证明遵循所谓的同步器。同步器的核心概念是脉冲和安全节点。节点在开始模拟下一个同步回合时会发出一个脉冲。如果节点在当前脉冲中发送的每条消息都被其邻居接收并处理,则该节点是安全的。节点使用确认消息来确定安全性。如果一个节点及其所有邻居都是安全的,则该节点继续下一个脉冲。

带有ReLu激活的3层MLP可以准确地模拟转换函数。这是因为转换函数是if语句的有序序列。
在这里插入图片描述
该函数第一种情况保留状态,第二种情况使用与sGIN 相同的函数更新状态,第三种状态将消息添加到状态中。有了第一层的位补码和计数位,我们创建了最后2层,如图所示。中间行显示了三种情况的三个分量。左侧分量存储s,右侧分量存储m,中间分量模拟sGIN。这种结构中的关键主题是将位的较大负权重附加到这些位禁用的分量上。如果设置了一个位(或其补码),则该分量将变为负数并被ReLu设置为0。例如,如果safe=1,则中间和右边的分量都归零,因此h=s。
在这里插入图片描述
5. 带有随机消息延迟的AMP

为了更详细地了解表达能力,需要区分AMP的两种变体。在AMP的第一个变体中,我们假设消息在到达之前有一个随机延迟。例如,延迟可以在区间 [0,1] 中统一选择。延迟可以作为随机性的来源,这使得这种变体非常强大。
在这里插入图片描述
不能被1-WL GNNs区分的图形,但AMP可以。

  1. 具有恒定消息延迟的AMP

现在考虑延迟不是随机的,但是每条消息都需要相同的时间到达的场景。由于没有将延迟作为随机性来源,因此该模型的表现力较差。因此,无法创建标识符并区分任意图。然而,这种AMP变体比1-WL测试更强大。

  1. 实验结果

在GNN表达能力基准测试集的准确性方面,AMP准完美地解决了所有基准,甚至包括约束聚合(MAX, MEAN)或需要长距离传播(Skip-Cycles)的挑战性基准。
在这里插入图片描述
寻找最短路径对于长距离信息传播很有趣,因为它需要在最坏的情况下读取整个图。AMP-Iter学会了几乎完美的推断。其他AMP变体也比GNN基线更好地推断。
在这里插入图片描述
在这里插入图片描述
最短路径奇偶校验(y 轴)的精度。我们通过到起始节点(x 轴)的距离来分解精度。随着 x 的增加,准确度下降得越厉害,方法就越容易受到影响。
在这里插入图片描述
最短路径奇偶校验(y 轴)的准确性,但仅适用于模型在训练集中针对不同图形大小(x 轴)看到的距离的节点。精度下降表明过度平滑。

AMP-Iter和AMP-ACT再次表现最佳。由于AMP中的节点一次接收一个问题的信息,因此它们不太容易受到过度抑制(oversquashing)。学习终止也有助于节点保留他们学到的信息。循环AMP变体的性能比AMP-Iter和 AMPACT差,甚至比IterGNN和Universal差。这表明学习终止确实是一个有用的属性。

  1. 图分类
    在这里插入图片描述
    最短路径奇偶校验任务(y 轴)的准确性,用于针对不同的图形大小(x 轴)同时解决(a)一个或(b)三个任务。左图到右图之间的精度下降越多,方法就越容易受到过度抑制(oversquashing)。
    在这里插入图片描述
    即使对合适的AMP架构和超参数调整几乎没有研究,AMP也能取得与现有GNN作品相当的结果,但并不完全是最先进的。我们相信AMP的进一步改进有可能达到具有竞争力的性能。令我们惊讶的是GCN的结果在5个数据集中的3个上明显优于所有其他方法。

AMP是一个很有前途的范例。但在AMP应用于大多数实际问题之前,仍需要在并行性和处理更大的图方面继续改进。

阅读原文

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值