作者:Mengying Jiang ;Guizhong Liu;Yuanchao Su ;Xinliang Wu
论文标题:Structure Learning Graph Convolutional Networks for Graphs under Heterophily
论文地址:https://arxiv.org/abs/2105.13795
欢迎关注小编知乎:图子
传统的GNN往往聚合来自邻居节点的特征信息,但是在同配性较低的图上,相似的节点可能在图上距离很远。这篇论文是近几日最新发表在arXiv上,提供了另外一种思路,通过改变异配性高的图的拓扑结构,根据节点的相似度生成一个新的邻接矩阵,帮助 GNN 从同一类节点中获取信息。
异质性和异配性区别:
异质性(Heterogeneous),强调节点类型和边类型的多样性。同配性,强调节点和边的类型单一。
异配性(Heterophily),强调节点和其邻居的相似度较低(比如标签差异较大)。同配性,强调节点与其邻居特性较为吻合(向量表示或者标签较为接近)。
0. Abstract
GNN 的性能通常会受到图结构的限制,现实世界的图数据往往是有噪声或不完整的。论文提出了一种结构学习图卷积网(SLGCNs),能够两个方面来缓解这个问题,并应用于节点分类。1)针对节点特征,论文设计了一种高效的带锚点的谱聚类方法,无论节点之间距离多远,都能够有效地聚合所有相似节点的特征表示。2)由于原始邻接矩阵在同配性低的图中为GCN的聚合提供误导信息,因此论文根据节点之间的相似性生成了一个重连接的邻接矩阵,并为下游预测任务进行了优化。重连接的邻接矩阵和原始邻接矩阵都被应用于SLGCNs,以聚合邻居节点的特征表示。SLGCNs 可以应用于具有不同程度同配性的图。在基准数据集上的实验结果表明,SLGCNs的性能优于最先进的GNN模型。
1. Introduction
1)GCN的局限性
GCN通过简单地将所有一跳邻居的归一化特征表示相加来更新节点的特征,这限制了GCN在图结构数据上的表示能力,即GCN无法捕获图中的长距离依赖关系,这一弱点在具有异配性或低/中度同配性的图中会被放大。
2)同配性(Homophily)
同配性是许多现实世界图的一个非常重要的原则,即链接的节点倾向于有类似的特征,属于同一类的节点有类似的特征。例如,论文更有可能引用同一研究领域的论文,而朋友往往有类似的年龄或政治信仰。然而,现实世界中也有关于 "异性相吸 "的设定,导致图的同配性很低,即距离近的节点通常来自不同的类别,并且具有不同的特征。例如,在交友网站中,大多数人倾向于与异性聊。大多数现有的GNN都假定有图很强的同配性,包括GCN,在高异配性下的图上泛化表现很差,甚至比只依靠节点特征进行分类的MLP还要差。
3)现有的解决办法
利用多层GCN来聚集来自远处节点的特征,而这种策略可能会导致过平滑和过拟合。最近有一些新的方法,如GEOM-GCN,H2GCN等,虽然GEOM-GCN提高了GCN的表示学习性能,但在低同配性的图上的节点分类的性能往往不佳。H2GCN改善了GCN的分类性能,但它只能聚合邻近节点的信息,导致缺乏捕捉距离较远但相似节点特征的能力。
4)SLGCNs
本文提出了一种新的GNN方法来解决上述问题,称为结构学习图卷积网络(SLGCNs)。按照谱聚类(SC)方法,图的节点被映射到一个新的特征空间,原始图中连接紧密或具有相似特征的节点在新的特征空间中通常是邻近的。如果采用SC来处理图结构数据,节点可以从相似的节点中聚集特征,从而使GCN能够捕获长距离的依赖关系。
然而,SC 的计算复杂度对于大规模图来说是非常高的,因此论文设计了一种高效的带锚点的谱聚类(ESC- ANCH)方法来有效地提取SC特征。然后,将提取的SC特征与原始节点特征相结合作为强化的特征(EF),并利用EF来训练GNN。
5)SLGCNs的贡献
将谱聚类集成到GNN中,用于捕捉图上的长距离依赖关系,并提出了ESC-ANCH算法,以便在图结构数据上有效地实现谱聚
SLGCNs可以学习重连接的邻接矩阵,这不仅与节点的相似性相关,更利于下游的预测任务;
SLGCNs分别从节点特征和边的方面提出了处理异配性的改进方案,并将两种改进结合起来,使之相互补充。
2. Related Work
2.1. Spectral Clustering
谱聚类(SC) 是一种从图论演变而来的算法,利用权重图对数据集进行分割。假设 代表一个数据集。聚类的任务是将 划分为 个簇。聚类对齐矩阵表示为 ,其中 是 的簇对齐向量。从另一个角度来看, 可以被视为 在 维特征空间中的特征表示。
亲和矩阵
令 表示一个无向的带权图, 表示节点的集合, 表示亲和矩阵, 是 中节点的数目,矩阵中的每一个元素 表示图中一对节点的相似度。最常见的构建 的方法是全连接方式。 计算方式:
和 表示两节点特征, 可以控制节点之间相似性的程度。拉普拉斯矩阵 , 是度矩阵,即对角阵。
谱聚类的目标函数:
是簇指示矩阵,谱聚类目标函数重写为:
目标函数的最优解 是由