论文阅读:Graph Contrastive Learning with Augmentations

Abstract

图结构数据上的广义、可转移和鲁棒表示学习仍然是当前图神经网络(GNNs)面临的一个挑战。与用于图像数据的卷积神经网络(CNNs)不同,对gnn的自我监督学习和预训练的探索较少。在本文中,我们提出了一个图对比学习(GraphCL)框架来学习图数据的无监督表示。首先,我们设计了四种图增广来包含各种先验。然后,我们在四种不同的设置中系统地研究了图增强的各种组合对多个数据集的影响:半监督、无监督、迁移学习以及对抗性攻击。结果表明,即使不调优扩展范围,也不使用复杂的GNN架构,我们的GraphCL框架可以产生与最先进的方法相比具有相似或更好的泛化性、可转移性和鲁棒性的图表示。我们还研究了参数化图扩展范围和模式的影响,并在初步实验中观察进一步的性能提高。

Introduction

  1. 本文设计了四种图数据增强,每一种都对图数据施加一定的先验,并对范围和模式进行参数化。
  2. 本文提出了一种新的用于GNN训练前的图对比学习框架(GraphCL),从而可以学习不同图结构数据的不受特殊扰动的表示。此外,我们展示了GraphCL实际上实现了互信息最大化,并且GraphCL与最近提出的对比学习方法之间建立了联系,我们展示了GraphCL可以被重写为一个通用框架,统一了图结构数据上的大量对比学习方法。
  3. 通过系统研究,评估了不同增强方法在不同类型数据集上的性能对比,揭示了增强方法性能的基本原理,并为具体数据集采用该框架提供指导。

Methodology

Data Augmentation for Graphs

  • Node dropping: 随机从图中去除掉部分比例的节点及其边,每个节点丢弃的概率服从 i.i.d 的均匀分布
  • Edge perturbation: 随机增加或删除一定比例的边,每个边的增加或者删除的概率亦服从 i.i.d 的均匀分布
  • Attribute masking: 随机去除部分节点的属性信息,迫使模型使用上下文信息来重新构建被屏蔽的顶点属性。
  • Subgraph: 使用随机游走的方式从G中提取子图的方法。

Graph Contrastive Learning

主要框架:

组成部分:

  • 图数据增强
  • 基于 GNN 的编码器
  • 投影头
  • 对比损失

Graph data augmentation

   前面4 种数据增强方式,如

  • Node dropping:
  • Edge perturbation
  • Attribute masking
  • Subgraph

GNN-based encoder

GNNs 框架:

  聚合步:即信息传递阶段,该阶段会多次执行信息传递过程。

       输出: 

  通过一个读取函数 READOUT 得到两个视图的图级表示向量 hi 和 hj 。

 Projection head

对上述生成的图数据表示 hi和 hj ,使用一个非线性变换投影头 g(⋅) (即:双层的 MLP) 将其潜在空间转换到 zi,zj。

Contrastive loss function

在 GNN 预训练过程中,对一小批  N  个图进行随机采样并通过对比学习处理,得到  2N  个增广图和相应的对比损失进行优化,我们将小批图中的第  n  个图重新注释为  Zn,i,Zn,j  。负对不是显式采样的,而是来自相同小批中的其他  N−1  增广图。将第  n  个图的余弦相似函数表示 为 

 第  n  个图的 NT-Xent 定义为:

其中 τ 是 temperature parameter。

显然上述过程是图级对比损失。

损失函数可以重新写为:

 

Experiment

文章的实验分为两部分,分别讨论数据增强对GraphCL效果的影响以及比较GraphCL与SOTA图标是学习方法的性能。

数据增强在图对比学习中的作用

这部分实验评估了采用之前提出的四种数据增强方法的图对比学习框架在半监督图分类任务上的效果。在半监督设定下,模型的训练采用pre-training加finetuning的方法,采用的数据集包括Biochemical Molecules以及Social Networks两类。通过实验得到了文章所提出的预训练方法相对于learn from scratch方法的性能提升(Fig 2)

 

实验主要讨论了三部分内容:

1. 数据增强对于图对比学习的效果具有关键作用

A.加入数据增强有效提升了 GraphCL 的效果

  • 通过观察 Figure 2 中每个数据图实验结果中的最上一行与最右一列可以发现采用数据增强能有效提升 GraphCL 的分类准确度。这是由于应用适当的数据增强会对数据分布注入相应的先验,通过最大化图与其增强图之间的一致性,使模型学习得到的表示对扰动具有不变性。

B.组合不同数据增强方式对算法效果提升更大

  • 通过观察 Figure 2 发现每个数据集上采用相同数据增强方式构建的样本对所对应的结果均不是该数据集上的最优结果,而每个数据集上的最优结果均采用不同数据增强组合的方式。文章给出的解释是,采用不同数据增强组合的方式避免了学习到的特征过于拟合低层次的“shortcut”,使特征更加具有泛化性。同时通过 Figure 3 发现当采用不同数据增强方式组合时,相比于单一数据增强时的对比误差下降的更慢,说明不同数据增强组合的方式意味着”更难“的对比学习任务。  

 2、数据增强的类型,强度以及模式对 GraphCL 效果的影响

我们注意到,增强类型的(最)有益组合可以是特定于数据集的,这与我们的直觉相匹配,因为图结构数据具有高度异构的性质.

A、Edge perturbation 的方式对于 Social Network 有效但在部分 biochemical Molecules 数据集上反而有负面效果

      通过 Figure 2 可以看出Edge perturbation的数据增强方式在除 NCI1 之外的三个数据集上均有较好的效果,但是在 NCI1 上的效果反而比 baseline 算法差。这是由于对 NCI1 中的网络的语义对于边的扰动更加敏感,对网络中边进行修改可能会改变分子的性质从而破坏网络语义,进而影响下游任务。针对 Edge perturbation 的强度,从 Figure 4 中可以得出,在 COLLAB 数据集上,算法性能随 Edge perturbation 的强度增加而提升,但在 NCI1 数据集上,Edge perturbation 强度对算法效果无明显影响。

 B、Attribute masking的方式在更“密集“的图数据上能取得更好效果

     从 Figure 2 中可以发现Attribute masking的增强方式在平均度更高的数据集上具有更好的性能增益(例如COLLAB),而在平均度较低的数据集上增益明显减小。文章对这个结果做出的假设是,当图数据越密集时,意味着 Attribute masking 之后模型仍然有足够的其他数据来重建被屏蔽的数据,而反之则难以重建。在强度方面,通过增加Attribute masking的强度可以在更“密集”的数据集上提升算法效果。

C、Node dropping 和 Subgraph 的方式对所有数据集都有效 

上述两种方式,尤其是 Subgraph 的数据增强方式在实验中的数据集上都能给图对比学习算法带来性能增益。Node dropping有效的原因是,在许多图数据中去掉部分节点并不影响整图的语义。而对于 Subgraph 的方式,之前的相关研究已经说明了采用 Local-Global 的对比学习方式训练图表示是有效的。

3、相对于“更难”的任务,过于简单的对比任务对算法性能提升没有帮助

“更难”的任务有利于提升GraphCL的效果,这里包含两种情况,一种是将不同的数据增强方法进行组合,另一种是增加数据增强的强度或者提高增强模式的难度,例如采用更高的概率进行Node dropping,或者采用均匀分布之外的复杂分布进行 Node dropping。

GraphCL与SOTA算法的性能对比

在这部分实验中,文章对比了 GraphCL 与 SOTA 的图表示方法在四种setting下的图分类任务中的性能,包括半监督、无监督、迁移学习以及对抗攻击setting。具体实验设置详见原文。在半监督、无监督、迁移学习任务中,GraphCL 在大部分数据集上的分类准确率都达到了 SOTA ,在对抗攻击setting下,实验结果表明GraphCL增强了模型的鲁棒性。

1.半监督任务

我们将两种传统的网络嵌入方法作为预训练任务进行比较:邻接信息重建和局部和全局表示一致性强制。此外,报告了从无到有训练和增强训练(无对比)的表现。我们采用[63]中默认设置的图卷积网络(GCN)作为基于gnn的编码器,在全监督设置下可以达到与SOTA性能相当的性能。表3显示,GraphCL优于传统的训练前方案。

2. 无监督任务 

比较从图核学习的图表示、SOTA 表示学习方法和用 GraphCL 预训练的 GIN 的分类精度。

 

3.  迁移学习任务 

不同人工设计预训练方案的迁移学习比较

 

 4.对抗鲁棒性测试任务

  GNN在三种不同深度对抗攻击下的对抗性能

4 Conclusion

  在本文中,我们探索针对GNN预训练的对比学习,因为它面临着图结构化数据中的独特挑战。 首先,提出了几种图形数据扩充方法,并在介绍某些特定的人类数据分布先验的基础上进行了讨论。 随着新的扩充,我们为GNN预训练提出了一种新颖的图对比学习框架(GraphCL),以促进不变表示学习以及严格的理论分析。 我们系统地评估和分析了我们提出的框架中数据扩充的影响,揭示了其原理并指导了扩充的选择。 实验结果验证了我们提出的框架在通用性和鲁棒性方面的最新性能。

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值