论文:Towards Unsupervised Deep Graph Structure Learning

ABSTRACT

当原始图结构中存在噪声连接时,gnn的性能会下降;此外,gnn对显式结构的依赖使其无法应用于一般的非结构化场景。为了解决这些问题,最近出现的深度图结构学习(GSL)方法提出在节点分类任务的监督下,与GNN共同优化图结构。这些方法集中在监督学习场景,这导致了几个问题,即:依赖标签,边缘分布的偏差,以及应用任务的限制。本文提出了一个更实用的GSL范式——无监督图结构学习,学习到的图拓扑是由数据本身优化的,没有任何外部指导(标签)。为了解决无监督GSL问题,我们提出了一种新的基于自监督对比学习的StrUcture Bootstrapping contrastive LearnIng fraMEwork(简称SUBLIME)。我们从原始数据中生成一个学习目标作为“锚图”,并使用对比损失来最大化锚图和学习图之间的一致性。为了提供持续的引导,我们设计了一种新的自启动机制,在模型学习过程中使用学习到的结构来升级锚图。我们还设计了一系列图学习者和后处理方案来建模要学习的结构。在8个基准数据集上的大量实验证明了我们提出的SUBLIME的显著有效性和优化图的高质量。

INTRODUCTION

大多数gnn依赖于一个基本假设,即原始结构足够可信,可以被视为模型训练的基本真实信息。不幸的是,这种假设在现实场景中经常被违背,因为图结构通常是从复杂的交互系统中提取出来的,这些交互系统不可避免地包含不确定的、冗余的、错误的和丢失的连接。原始拓扑中的噪声信息会严重损害gnn的性能。此外,对显式结构的依赖也阻碍了gnn的广泛适用性。如果gnn能够揭示样本之间的隐式关系,例如,两幅图像包含相同的对象,它们可以应用于更一般的领域,如视觉和语言。

为了解决上述问题,深度图结构学习(GSL)是一种很有前途的解决方案,它利用gnn构建和改进图拓扑。具体而言,这些方法使用概率模型、全参数化或度量学习模型对邻接矩阵进行参数化,通过求解下游任务(即节点分类),共同优化邻接矩阵和gnn的参数。然而,现有的方法在监督场景中学习图结构,这带来了以下问题:

  1. 对标签信息的依赖。在监督GSL方法中,人工标注标签在为结构改进提供监督信号方面发挥着重要作用。这种对标签的依赖限制了监督GSL在更多注释不可用的情况下的应用。
  2. 学习边缘分布的偏差。节点分类通常遵循半监督设置,其中只有一小部分节点(例如Cora数据集中的)处于标签的监督下。这些节点与相邻节点之间的连接在结构学习中将得到更多的引导。而距离较远的节点之间的关系则很少被GSL发现。这种不平衡会导致边缘分布的偏差,影响学习结构的质量。
  3. 下游任务的限制。在现有的方法中,该结构是专门为节点分类学习的,因此它可能包含更多的任务特定信息,而不是一般知识。因此,细化后的拓扑可能对链路预测、节点聚类等下游任务没有好处,说明学习的结构泛化能力较差。

为了解决这些问题,本文研究了一种新的GSL无监督学习范式,即无监督图结构学习。如图1所示,在我们的学习范式中,结构是由数据自身学习的,不需要任何外部引导(即标签),获得的通用无边偏拓扑可以自由地应用于下游的各种任务。

如何为无监管的GSL提供足够的监管信号? 

我们提出了一种新的StrUcture Bootstrapping contrastive LearnIng fraMEwork(SUBLIME),用于在自监督对比学习的辅助下学习图结构。具体来说,我们的方法从原始数据中构建一个“锚图”来指导结构优化,并以对比损失来最大化锚图和学习到的结构之间的互信息(MI)。通过最大化它们的一致性,可以发现含有信息的隐藏连接,这很好地尊重了原始特征和结构所传递的节点邻近性。同时,当我们优化每个节点表示上的对比损失时,所有潜在的边缘候选都将得到必要的监督,这促进了推断拓扑中边缘的均衡分布。此外,我们还设计了一个自启动机制,利用学习到的边缘来更新锚图,为GSL提供了一个自增强的监督信号。此外,我们精心设计了多个图学习器和后处理方案,对不同的数据进行图拓扑建模。

我们的核心贡献包括三个方面:

  • Problem. 我们提出了一种新的无监督学习范式用于图结构学习,它比现有的监督学习范式更具实用性和挑战性。据我们所知,这是在无监督设置中使用gnn学习图结构的第一次尝试。
  • Algorithm. 我们提出了一种新型的无监督GSL方法SUBLIME,该方法通过对比学习来使学习到的结构和精心制作的自增强学习目标之间的一致性最大化,从而指导结构优化。
  • Evaluations. 我们在8个基准数据集上进行了大量的实验,通过与最先进的方法进行彻底的比较来证实其有效性并分析其特性。

RELATED WORK

Deep Graph Structure Learning

最近兴起了一个研究gnn的GSL的分支,旨在提高gnn在下游任务中的表现,这被称为深度图结构学习。这些方法遵循一个通用的流程:用可学习的参数对图邻接矩阵建模,然后在下游节点分类任务的监督下,与GNN共同优化。在这些方法中,利用各种技术参数化邻接矩阵。考虑到图结构的离散性,有一类方法采用概率模型,如伯努利概率模型和随机块模型。另一种方法通过度量学习函数(如余弦相似度和点生成)计算节点相似度来建模结构。此外,直接将邻接矩阵中的每个元素作为可学习参数也是一种有效的解决方法。尽管如此,现有的深度GSL方法遵循一个监督的场景,其中总是需要节点标签来细化图结构。在本文中,我们提倡一种更实用的无监督学习范式,即GSL不需要额外的信息。

Contrastive Learning on Graphs

图对比学习遵循互信息最大化(MI)原则,将具有共享语义信息的样本表示拉近,而将不相关的样本表示推开。图对比学习也有利于各种应用,如化学预测,异常检测,联邦学习,推荐。然而,如何利用对比学习来有效地提高GSL还不清楚。

PROBLEM DEFINITION

两个无监督GSL任务,即结构推理和结构细化。前者适用于图形结构不是预定义的或不可用的一般数据集。与之不同的是,后者的目的是修改给定的噪声拓扑结构,并产生一个信息更丰富的图。在这两个任务中,节点标签都不能用于结构优化。

  • Definition 3.1 (Structure inference)   给定一个特征矩阵X ∈R^{nXd},结构推理的目标是自动学习一个图的拓扑结构S\in [0,1]^{^{nXn}},这反映了数据样本之间的潜在相关性。特别是,S_{i,j}\in[0,1]表示两个样本(节点)之间是否有边X^{i},X_{j}.
  • Definition 3.2 (Structure refinement)  给定图G = (A, X) 带噪声的图结构A,结构细化的目标是将A细化为优化后的邻接矩阵S\in [0,1]^{^{nXn}}以便更好地捕获节点之间的底层依赖关系。

 对于从数据中自动学习或从现有图结构中精炼的图拓扑S,假设模型在下游任务上的性能可以从本质上得到改善通过输入的 G_{l} = (S, X)

METHODOLOGY

一个新的无监督GSL框架,最高层次的SUBLIME由两部分组成:图结构学习模块( graph structure learning module )对学习到的图拓扑进行建模和规范化,结构自引导对比学习模块(structure bootstrapping contrastive learning module)为GSL提供自优化的监督信号。

在图结构学习模块中,一个草图的邻接矩阵首先由图学习器参数化,然后由后处理器细化为学习到的邻接矩阵。随后,在结构自举对比学习模块中,我们首先建立了两种不同的观点来进行对比:发现图结构的学习观点和为结构学习提供指导的锚点观点。然后,在数据增强后,通过节点级对比学习来最大化两个视图之间的一致性。特别地,我们设计了一个结构自举机制来更新锚点视图。下面的小节分别说明了这些关键组件。

 Graph Learner

作为GSL的关键组成部分,图学习器生成草图邻接矩阵 S ∈R(nXn)参数化的模型.现有的大多数方法对图结构建模的策略单一,不能适应具有不同独特属性的数据。为了找到各种数据的最优结构,我们考虑了四种类型的图学习者,包括全图参数化(FGP)学习者和三种基于度量学习的学习者。(i.e., Attentive, MLP, and GNN learner). p_{w}(·)图学习器的公式,^{w}是可学习参数。

FGP学习直接用一个独立参数对邻接矩阵的每个元素建模,不需要任何额外的输入。形式上,FGP学习定义为:

 FGP学习器背后的假设是每条边都独立存在于图中。

与FGP学习者不同,基于度量学习的学习首先从输入数据中获取节点嵌入E\inR(nXd)

 

三个基于度量学习的具体实例 :Attentive, MLP, and GNN learners.

Attentive Learner 采用一个类似于gat的[40]注意网络作为其嵌入网络,每层计算输入特征向量和参数向量的Hadamard production:

MLP Learner 使用多层感知(Multi-Layer Perception, MLP)作为其嵌入网络,其中单层可以写成: 

 

GNN learner 通过基于GNN的嵌入网络,将特征X和原始结构A集成到节点嵌入E中。 由于对原始拓扑的依赖,GNN Learner 只使用在结构细化任务,我们取GCN层组成嵌入式网络:

GNN Learner 假设两个节点之间的连接不仅与特征有关,还与原始结构有关。

Post-processor 

post-processor旨在将草图的邻接矩阵S细化为一个稀疏的,非负的,对称的和标准化的邻接矩阵S。四个后处理步骤依次应用,sparsification q^{sp}(·), activation q_{act} (·), symmetrization q_{sym} (·), and normalization q_{norm} (·).

Sparsification.草图的邻接矩阵~ S经常是密集的,表示一个完全连接的图结构。然而,这种邻接矩阵通常对大多数应用没有意义,并导致昂贵的计算成本,因此,我们进行基于k-最近邻(kNN)的疏化。具体来说,对于每个节点,我们保留top-k连接值的边,并将其余的边设为0。

Symmetrization and Activation. 

在现实世界的图形中,连接通常是双向的,这需要一个对称的邻接矩阵。另外,根据邻接矩阵的定义,边的权值必须是非负的。为了满足这些条件,对称和激活过程如下:

Normalization 

为了保证边缘权值在范围内[0,1],我们最后对˜S进行标准化。特别地,我们应用了对称的归一化:

Multi-view Graph Contrastive Learning 

how to provide an effective supervision signal guiding the graph structure learning without label information?

我们的答案是通过多视图图对比学习从数据本身获取监督信号。具体来说,我们分别根据学习到的结构和原始数据构建了两个图视图。然后,对两个视图应用数据增强。最后,我们利用节点级对比学习最大化了两个增强视图之间的MI。

Graph View Establishment

与一般的图对比学习方法从原始数据中同时获得两个视图不同,SUBLIME将学习到的图定义为一个视图,然后用输入数据构造另一个视图。前者被称为学习者观,它探索每一步的潜在结构。锚视图为GSL提供了一个稳定的学习目标

Learner View 的建立是将学习到的邻接矩阵S和特征矩阵X集成在一起。G_{l} = (S, X).在每次训练迭代中,通过梯度下降法直接更新S和用于建模的参数,发现最优图结构。在SUBLIME中,我们初始化学习者视图为建立在特性上的kNN图,因为它是为GSL提供一个起点的有效方法,

Anchor view扮演着“老师”的角色,为GSL提供正确、稳定的指导。对于原始结构A可用的结构细化任务,我们将锚视图定义为G_{a} = (A_{a}, X) = (A, X).为了提供一个稳定的学习目标,锚视图不是通过梯度下降法更新的,而是一种新的自启动机制

数据增加。在对比学习中,数据增强是一个关键,通过使学习任务更具挑战性,探索更丰富的底层语义信息,从而使模型受益.在SUBLIME中,我们利用两种简单而有效的增强方案,即特征掩蔽和边缘衰减,在结构层和特征层对图视图进行破坏。

Feature masking 对于给定的特征矩阵X,为掩蔽向量m(^{x}) ∈ {0, 1}^{d}

Edge dropping. 除了掩蔽特征之外,我们还通过随机删除一部分边来破坏图结构。具体来说,对于给定的邻接矩阵a,掩蔽矩阵M(^{a}) ∈ {0, 1}^{nXn}

在SUBLIME,我们联合利用这两种增强方案在学习者和锚视图上生成增强图: 

Node-level Contrastive Learning. 

对比学习框架起源于SimCLR,由以下几个部分组成:

GNN-based encoder:

 

 

Adversarial attacks are a major concern in the field of deep learning as they can cause misclassification and undermine the reliability of deep learning models. In recent years, researchers have proposed several techniques to improve the robustness of deep learning models against adversarial attacks. Here are some of the approaches: 1. Adversarial training: This involves generating adversarial examples during training and using them to augment the training data. This helps the model learn to be more robust to adversarial attacks. 2. Defensive distillation: This is a technique that involves training a second model to mimic the behavior of the original model. The second model is then used to make predictions, making it more difficult for an adversary to generate adversarial examples that can fool the model. 3. Feature squeezing: This involves converting the input data to a lower dimensionality, making it more difficult for an adversary to generate adversarial examples. 4. Gradient masking: This involves adding noise to the gradients during training to prevent an adversary from estimating the gradients accurately and generating adversarial examples. 5. Adversarial detection: This involves training a separate model to detect adversarial examples and reject them before they can be used to fool the main model. 6. Model compression: This involves reducing the complexity of the model, making it more difficult for an adversary to generate adversarial examples. In conclusion, improving the robustness of deep learning models against adversarial attacks is an active area of research. Researchers are continually developing new techniques and approaches to make deep learning models more resistant to adversarial attacks.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值