文章目录
A Survey of Graph Neural Networks in Real world Imbalance, Noise, Privacy and OOD Challenges
论文链接:https://arxiv.org/pdf/2403.04468
摘要
图结构化数据在各个领域具有普遍性和广泛适用性,如社交网络分析、生物化学、金融欺诈检测和网络安全。在这些领域,利用图神经网络(GNNs)取得了显著进展,取得了令人瞩目的成功。然而,在现实世界的场景中,模型的训练环境往往远非理想,由于各种不利因素,包括数据分布的不平衡、错误数据中的噪声存在、敏感信息的隐私保护以及对于超出分布(OOD)场景的泛化能力,导致GNN模型的性能显著下降。为了解决这些问题,人们致力于改进GNN模型在实际现实世界场景中的性能,以及增强它们的可靠性和鲁棒性。在本文中,我们提出了一项全面的调查,系统地审查现有的GNN模型,重点关注解决四个提到的现实世界挑战,包括不平衡、噪声、隐私和OOD在许多现有评论中未考虑的实际场景。具体而言,我们首先突出了现有GNN面临的四个关键挑战,为我们探索现实世界GNN模型铺平道路。随后,我们对这四个方面进行了详细讨论,剖析这些解决方案如何有助于增强GNN模型的可靠性和鲁棒性。最后,我们概述了前景和未来展望。
关键词:图神经网络,不平衡,噪声,隐私,超出分布。
1 引言
图结构化数据以节点和边表示相互连接的实体和关系,具有固有的复杂性和多样性。图的相互关联性使其能够模拟各种实际场景,其中实体及其相互作用起着关键作用。分析图数据至关重要,因为它使我们能够洞察复杂模式,揭示隐藏的结构,并了解相互连接系统的动态[1],[2]。图数据的适用性延伸至各个领域;例如,在社交网络分析中,图可以表示个体之间的关系[3],在生物信息学中,分子结构可以被建模为图[4],交通网络也可以表示为图以优化路线和物流[5]。这些例子突显了图数据分析在解决不同领域的各种挑战中的重要性和广泛实用性。
最近,图数据分析领域的格局受到了图神经网络(GNNs)的广泛采用和显著成功的显著影响。GNNs已经成为图学习中的基石,在各种应用中展现出卓越的性能。GNNs背后的基本思想在于,通过迭代地聚合和更新来自相邻节点的信息,捕捉图结构化数据中的复杂关系。这使得GNNs能够学习节点的有意义表示,捕捉图中的局部和全局模式。GNNs的多功能性和有效性在各种实际应用中得到了显著展示。在电子商务中,像阿里巴巴这样的平台利用GNNs来理解用户行为,从而实现个性化产品推荐,提升整体用户参与度。社交媒体如Pinterest利用GNNs进行内容推荐,成功地将用户与相关和吸引人的内容联系起来。此外,GNNs在模拟复杂物理系统和加速药物发现过程中取得了显著成功。
尽管当前GNN模型表现出色,但关键是要意识到它们的训练通常发生在理想化的环境中,其中训练数据是干净的、标准化的和全面的。然而,在现实世界的场景中,GNN模型通常面临各种挑战,严重影响其性能,甚至可能导致模型崩溃。理想化训练条件与现实世界挑战之间的差异在GNN部署中构成了一个关键问题。例如,在金融交易中的欺诈检测中,与非欺诈案例相比,欺诈案例的稀缺性导致数据集不平衡。由于数据不平衡问题,GNNs可能难以有效学习与欺诈相关的模式。在生物信息学中,生物数据中的实验误差或异常可能引入噪声,使GNNs难以准确预测分子结构或识别模式。在社交网络分析中,GNN模型必须在从网络中提取有意义见解和保护用户隐私之间找到微妙平衡。此外,在网络安全领域,GNNs用于检测网络威胁时,面对以前未见过的新型超出分布(OOD)攻击可能会遇到困难。图1中的说明性示例进一步阐明了GNN模型在处理实际社交网络场景中遇到的挑战。这些现实世界的例子突显了GNN模型对各种不利挑战的脆弱性,突出了开发GNN模型可靠和鲁棒解决方案的重要性。
图1:GNN模型处理实际社交网络场景的说明性示例。从真实平台提取的用户数据通常呈现长尾分布,表明存在广泛的主流用户类型以及大量罕见的类型。用户之间的互动可能受结构噪声和虚假标签的影响。此外,实际GNN模型面临攻击模型和用户信息泄露问题。从现有业务场景到新环境的模型泛化也引入了OOD问题。为了解决这些现实世界挑战,需要创新的模型结构和实用技术来增强GNN模型的鲁棒性和可靠性。
为了应对GNN模型在现实世界场景中面临的种种挑战,研究人员致力于解决这些不利因素。为了全面系统地总结在现实世界场景中采用的方法,我们在本文中提出了一项全面的调查。本调查主要关注为GNN模型应对四种普遍现实世界条件而设计的解决方案:不平衡、噪声、隐私和超出分布。通过整合现有的研究努力,本调查旨在提供对当前情况的全面概述。此外,我们旨在提出未来研究前沿,以指导研究人员审查、总结和制定未来策略,以增强GNN模型在实际应用中的可靠性和鲁棒性。
本调查与现有调查的区别。到目前为止,已经有几篇文献综述从不同角度深入研究了实际世界的GNNs,它们与我们的研究密切相关。尽管这些调查与我们的工作相关,但它们在特定重点上也存在差异。例如,吴等人[23]专注于GNN模型的三个方面:可靠性、可解释性和隐私。戴等人[18]进行了更详细的讨论,涵盖了隐私、鲁棒性、公平性和可解释性。张等人[17]在[18]奠定的基础上,探讨了问责和环境福祉等新兴主题。这三个同时进行的工作围绕着值得信赖的GNNs这一主题,从创建更可靠的AI系统的角度进行探讨。与这些工作不同,我们的调查源于现实世界的考虑,集中在实际场景中。此外,Oneto等人[24]在可信基础上扩展,涵盖了更宏观的元素,如在图上具有保证的自动操作,旨在实现更智能和负责任的GNN模型。据我们所知,与我们最相关的调查是[25],它从固有噪声、分布转移和对抗性攻击等方面总结了可靠的图学习。除此之外,我们的调查还解决了现实世界场景中数据不平衡和隐私的普遍问题。值得注意的是,他们的调查[18]仅涵盖了截至2022年的方法,缺乏过去两年最新发展的覆盖范围。
我们的贡献。本调查旨在全面总结GNN模型在现实世界中的进展,同时为未来探索铺平道路。它为研究人员和从业者提供了一个宝贵的资源,通过提供GNN在实际场景中的概述和最新发展,为他们提供了帮助。本调查的主要贡献如下:
- 系统分类法。提出了一种新颖的分类法,以系统地对现有的实际世界GNN模型进行分类,主要关注解决不平衡、噪声、隐私和超出分布问题的模型,并呈现代表性方法。
2 分类
为了更深入地了解现实世界中的图神经网络(GNN)模型,我们重点关注了关键研究工作,深入探讨了它们的动机,并简要总结了它们的主要技术贡献。本文的整体结构如图2所示。本调查建立了一个新颖的分类体系,将这些工作分为四个不同的类别:不平衡(Imbalance)、噪声(Noise)、隐私(Privacy)和分布外(Out-Of-Distribution)。这些类别构成了一个全面的框架,用于在不同场景下审查和分析这些工作。我们将简要概述这四个现实世界因素:

图2:现有GNN模型在现实世界中的分类概览。
- 图数据中的不平衡指的是图中类别或标签的分布极不均匀的情况[26]。解决不平衡的关键思想是确保学习过程不偏向于多数类,使模型能够有效捕捉与少数类相关的模式。这涉及制定策略,防止主导节点或类别在训练过程中掩盖少数节点或类别的贡献。为了解决类别不平衡问题,通常采用三种基本原则。第一种是重新平衡策略,旨在通过特定技术实现不同类别样本或损失函数的平衡情况[26],[30]。第二种是基于增强的策略,旨在通过额外信息增强模型训练[35],[37]。最后是模块增强策略,旨在增强不平衡学习中网络模块的表示学习[40],[117]。
- 图数据中的噪声指的是图中存在的与主题无关、不正确或误导性信息,这可能会对GNN模型的性能产生不利影响[42]。解决噪声的基本思想是制定策略,在训练过程中减轻错误信息的影响,准确捕捉图中的潜在模式。这涉及区分两种主要类型的噪声:标签噪声和结构噪声。标签噪声[42],[49]涉及图中节点或边缘的标签分配不准确或错误。这可能是由于数据标记过程中的人为错误或数据收集过程中的不一致性造成的。另一方面,结构噪声[56],[59],[65]则涉及图的拓扑结构中的不一致性或错误。这可能包括节点之间缺失或错误的连接,破坏了图中的真实关系。
- 图数据中的隐私关注的是保护图中节点或边缘相关的敏感信息,确保这些数据的机密性和完整性得到保留[118]。对于有效的图学习,由于在训练和推断阶段可能暴露个人或机密细节,隐私成为一个关键考虑因素。解决隐私问题的基本思想是制定策略,在从图中提取有意义的见解与保护敏感信息之间取得平衡。这涉及识别两种主要类别:隐私攻击和隐私保护。隐私攻击[71],[74],[86]涉及利用图数据中的漏洞来揭示有关个人或实体的敏感信息的尝试。隐私保护[81],[82],[119]侧重于开发机制和技术,保护图中的敏感信息,确保即使可以访问某些数据部分,也难以披露私人细节。
- 图数据中的分布外(OOD)指的是与模型训练阶段遇到的数据分布明显偏离的实例或模式[120]。在图学习中,OOD场景涉及遇到与模型训练期间观察到的图实例明显不同的图实例。解决图数据中的OOD的基本思想是使模型能够识别和处理在训练期间未见分布的实例。这涉及识别两种主要类别:OOD检测和OOD泛化。OOD检测[87],[95],[99]侧重于开发技术,识别图数据中不符合训练期间学习到的分布的实例。这通常涉及利用异常检测方法或结合不确定性估计机制来标记具有与训练数据不一致特征的实例。OOD泛化[103],[113]旨在增强模型在处理偏离训练分布的实例时做出准确预测的能力。目标是使GNN模型能够在面对新颖、未见过的图实例时做出可靠的预测。
4 数据不平衡
在现实世界的图神经网络(GNN)应用中,数据不平衡是一个关键挑战,表现为不同类别之间实例数量的显著差异。这种不平衡在各种 GNN 应用中普遍存在,包括欺诈检测 [131]、异常检测 [132] 等。多数类的主导导致少数类在 GNN 分类器训练过程中代表性不足,从而对整体性能产生负面影响。这种类别不平衡可以通过考虑 n n n 个不同类别 { C 1 , C 2 , … , C n } \left\{C_{1}, C_{2}, \ldots, C_{n}\right\} {C1,C2,…,Cn} 来形式化描述,其中 ∣ C i ∣ \left|C_{i}\right| ∣Ci∣ 表示第 i i i 类中样本的数量。类别不平衡程度由不平衡比率来衡量,定义为 min i ∣ C i ∣ max i ∣ C i ∣ \frac{\min _i\left|C_i\right|}{\max _i\left|C_i\right|} maxi∣Ci∣mini∣Ci∣。解决不平衡问题的模型的目标是开发一个既适用于多数类(例如 C 1 C_{1} C1)又适用于少数类(例如 C n C_{n} Cn)的 GNN 分类器。
为了解决这个问题,已经开发了各种策略,可以大致分为三类:重新平衡方法、基于增强的方法和模块改进方法。图 3 展示了类别不平衡问题的基本概念,而表 1 总结了解决类别不平衡问题的现有代表性工作。接下来的章节将深入探讨每种策略,提供全面的概述。
图 3:数据不平衡问题的示意图。从真实数据源获得的节点或图的标签通常受到样本长尾分布带来的严重类别不平衡问题的困扰。这一挑战需要各种适用的重新平衡策略来训练稳健可靠的 GNN。
4.1 重新平衡方法
重新平衡方法旨在解决不同类别之间训练样本分布不均匀的问题。重新平衡策略包括两类主要方法:重新采样和成本敏感学习。
重新采样。重新采样调整训练过程中样本的选择。标准的重新采样技术包括复制少数类中的样本或减少多数类中的样本。然而,在严重不平衡的情况下,这两种方法可能会导致过拟合或性能减弱。因此,近期的研究主要致力于合成少数类样本而不仅仅是过采样。GraphSMOTE [26] 在嵌入空间内使用合成少数类过采样来增加少数类的表示。此外,它整合了一个边生成器,用于在合成样本和现有样本之间创建新的连接,从而可以在样本之间产生可靠的关系数据。为了提高合成样本的质量,ImGAGN [27] 提出了一个生成对抗图网络,通过生成合成的少数类节点并使用图卷积网络鉴别器区分真实节点和合成节点,从而平衡类别表示。尽管 GraphSMOTE 的有效性,但在少数节点较少的情况下,GNN 仍然面临邻居记忆困难的问题。GraphENS [28] 解决了这一挑战,不仅生成少数节点,还生成它们的一跳邻居,有效地合成了少数类的整个自我网络。张等人 [133] 认为数据的庞大规模不能消除类别不平衡属性。因此,他们提出了一种称为数据倾斜的动态稀疏框架,根据梯度分数的排名来倾斜数据样本,并在训练过程中动态识别最具信息量的子集。SNS [29] 专注于解决异构信息网络中不平衡节点分类问题,它自适应地选择邻居节点,并在保持少数群体核心语义的同时用合成节点丰富网络。
表 1:概述了学习不平衡图的方法,分为三种主要类型:重新平衡、基于增强和模块改进方法。在这个表中,“CSL”表示成本敏感学习,“TL”表示迁移学习,“IA”表示信息增强,“RL”表示表示学习,“CT”表示分类器训练。
方法 | 任务类型 | 重新平衡 | 增强模块改进 | |||
---|---|---|---|---|---|---|
重新采样 CSL | T L \mathrm{TL} TL | IA | RL CT | 集成 | ||
GraphSMOTE [26] | 节点级 | ✓ \checkmark ✓ | ||||
ImGAGN [27] | 节点级 | ✓ \checkmark ✓ | ||||
GraphENS [28] | 节点级 | ✓ \checkmark ✓ | ||||
DataDec [133] | 图级 | ✓ \checkmark ✓ | ||||
SNS [29] | 节点级 | ✓ \checkmark ✓ | ✓ \checkmark ✓ | |||
ReNode [30] | 节点级 | ✓ \checkmark ✓ | ||||
TAM [31] | 节点级 | ✓ \checkmark ✓ | ||||
SOLTGNN [32] | 图级 | ✓ \checkmark ✓ | ||||
RAHNet [33] | 图级 | ✓ \checkmark ✓ | ✓ ✓ \checkmark \checkmark ✓✓ | |||
GNN-INCM [3] | 节点级 | ✓ \checkmark ✓ | ✓ \checkmark ✓ | |||
LTE4G [35] | 节点级 | ✓ \checkmark ✓ | ✓ \checkmark ✓ | |||
GraphMixup [36] | 节点级 | ✓ \checkmark ✓ | ||||
G 2 G N N [ 37 ] \mathrm{G}^{2} \mathrm{GNN}[37] G2GNN[37] | 图级 | ✓ \checkmark ✓ | ✓ \checkmark ✓ | |||
CM-GCL [38] | 节点级 | ✓ \checkmark ✓ | ✓ \checkmark ✓ | |||
INS-GNN [39] | 节点级 | ✓ \checkmark ✓ | ||||
ImGCL [40] | 节点级 | ✓ \checkmark ✓ | ✓ \checkmark ✓ | |||
GNN-CL [41] | 节点级 | ✓ \checkmark ✓ | ||||
GraphDIVE [117] | 图级 | ✓ \checkmark ✓ | ||||
CoMe [135] L- | 图级 | ✓ \checkmark ✓ | ✓ \checkmark ✓ | ✓ \checkmark ✓ | ||
PASTEL [136] | 节点级 | ✓ \checkmark ✓ | ✓ \checkmark ✓ | |||
QTIAH-GNIN [132] | 节点级 | ✓ \checkmark ✓ | ✓ \checkmark ✓ |
成本敏感学习。成本敏感学习调整各类别的训练损失以解决训练中的不平衡问题。一种广泛使用的方法涉及将训练数据中标签的频率应用于调整损失函数的权重。作为这种技术的变体,类平衡损失 [134] 根据每个类别中有效样本数量的倒数来缩放各类别的损失:
L c b = − 1 − β 1 − β n y log ( p y ) \begin{equation*} \mathcal{L}_{c b}=-\frac{1-\beta}{1-\beta^{n_{y}}} \log \left(p_{y}\right) \tag{3} \end{equation*} Lcb=−1−βny1−βlog(py)(3)
其中 n y n_{y} ny 表示类别 y y y 的样本数, β \beta β 是一个超参数。然而,这种直接方法并不总是最佳解决方案,因为它没有考虑图拓扑结构。为了解决这个问题,ReNode [30] 关注节点中数量和拓扑的不平衡,通过检查节点影响的变化,并根据它们相对于类别边界的位置自适应地调整标记节点的权重。类似地,TAM [31] 也利用拓扑信息,比较每个节点的连接模式与其类别的平均模式,并根据此自适应地修改边界。
4.2 基于增强的方法
基于增强的方法旨在通过额外信息增强模型训练,提升在不平衡学习场景中的性能。这种方法包括两种技术:迁移学习和信息增强。
迁移学习。 迁移学习旨在将从一个领域(如特定数据集或类别)获得的知识应用于改进另一个领域的模型训练。在图中不平衡学习的背景下,有两种主要方法:从多数到少数的知识迁移和知识蒸馏。从多数类到少数类的知识迁移的目标是利用从多数类别获得的知识来提高模型在预测少数类别时的有效性。例如,SOLTGNN [32] 利用节点和子图级别多数图上的共现子结构,并使用相关性预测函数来识别和传输多数图到少数图的模式。RAHNet [33] 提出了一个检索增强分支,用于检索最相关的图,并向少数类引入新知识,从而增强其对少数类的表征能力。知识蒸馏是迁移学习领域的另一种方法。GNN-INCM [34] 提出了一个专注于难样本的知识蒸馏模块。该模块通过使用分布和三元组对齐损失,使多个 GNN 模型同时训练。LTE4G [35] 应用知识蒸馏创建两个学生模型:一个专门针对多数类中的节点,另一个专门针对少数类中的节点,每个模型负责对其各自类别的节点进行分类。
4.3 模块改进方法
这一领域的研究主要集中在增强不平衡学习中的网络模块,包括表示学习、分类器训练和模型集成。
表示学习。 INS-GNN [39] 最初采用自监督学习对模型进行预训练,然后利用自训练为未标记节点分配伪标签。虽然对比学习通常用于改进表示,但 ImGCL [40] 发现当前图对比方法在区分不平衡节点方面存在局限性。为解决这一问题,ImGCL 引入了基于节点中心性的逐步平衡采样方法,旨在更好地维护图的内在结构。除了自监督学习外,GNNCL [41] 运用度量学习,专注于基于距离的损失,以学习具有更好区分能力的嵌入空间。具体来说,它引入了基于邻居的三元组损失,通过修改节点之间的距离来区分特征空间中与少数类相关的样本。
分类器训练。 为了更好地训练分类器,RAHNet [33] 通过解耦训练共同学习平衡特征提取器和无偏分类器。通常,不平衡的类分布会导致主要类别的权重范数较大,这可能会使分类器偏向这些主导类别。RAHNet 通过在保持训练好的特征提取器的同时对分类器的权重进行正则化来解决这个问题。
模型集成。 GraphDIVE [117] 专注于在节点和图级别提取多样化的表示。为确保专家的多样性,每个专家接收特定的图表示视图。最终的预测是通过汇总这些多视图专家的见解得出的。在多专家框架的基础上,CoMe [135] 推进了多专家的动态整合。为了最大化多专家学习的优势,CoMe 使用动态门控函数结合各种专家模型,增强了训练网络的整体多样性。此外,它以一种分解的方式在专家之间进行知识蒸馏,激励他们相互学习额外的知识。
4.4 讨论
尽管在图不平衡学习方面取得了显著进展,但主要集中在标签不平衡上,对图内结构不平衡的关注较少。孙等人 [136] 从全面的全局视角检查了监督信息的分布,关注达不到和过度压缩的挑战。为了解决这些挑战,他们引入了一种位置感知结构学习模块,优化信息传播路径,直接解决拓扑不平衡问题。QTIAH-GNN [132] 也专注于解决 GNN 中的拓扑不平衡问题。它引入了一个多级、标签感知的邻居选择机制,旨在识别和采样与给定中心节点相似的邻居,同时有效排除不同类别的节点。然而,需要进一步研究来加深我们对拓扑不平衡的理解,并为其开发有效的解决方案。
5 噪声
除了类别不平衡的挑战外,在图中存在的数据噪声是现实场景中普遍存在的问题。噪声有两种常见类型:标签噪声和结构噪声。图 4 展示了 GNN 模型解决这两种噪声类型的基本原理。接下来,我们将详细讨论这两个方面。
5.1 标签噪声
本节首先介绍了带有标签噪声的图学习概念。相关任务包括节点级别 [42]、[43]、[46]、[47] 和图级别 [137]、[138] 分类在存在嘈杂标签的情况下。在文献中,前者被更广泛地讨论,我们的主要关注点是节点级别分类。对于半监督节点分类,目标是训练一个 GNN 模型,表示为 F F F,能够在图 G \mathcal{G} G 上对具有嘈杂标签的节点进行鲁棒训练。该模型在一张图上训练,其中一些节点具有嘈杂标签,它输出未标记节点的预测标签为 y ^ U = F ( G ) \hat{\mathbf{y}}_{\mathrm{U}}=F(\mathcal{G}) y^U=F(G)。期望训练好的模型有效地减轻嘈杂标签对未标记节点预测 y ^ U \hat{\mathbf{y}}_{U} y^U 的不利影响。
处理带有图中嘈杂标签的场景的研究可分为两组:损失校正和标签校正。在接下来的章节中,我们将详细介绍这些方法。
图 4:GNN 在标签和结构噪声影响下的示意图。不可避免的标签错误要求 GNN 模型准确识别错误标记的样本,而节点之间的虚假或缺失边要求模型重建地面真实邻接矩阵。
5.1.1 损失校正方法
损失校正方法 [42]、[46] 旨在通过调整训练损失来纠正标签噪声对风险最小化的影响。常用的技术包括损失正则化、样本重新加权和从错误标记转移矩阵中获得指导。
损失正则化。 损失正则化方法引入额外信息以减轻嘈杂标签的影响。这些额外信息可能包括拓扑结构细节、预测一致性信息和成对交互信息。通过整合这些补充信息,损失正则化有助于增强模型在训练过程中对嘈杂标签的鲁棒性。例如,NRGNN [42] 建议通过探索高特征相似性将未标记节点与标记节点连接起来,引入结构重建损失来调整训练损失。该方法还利用高预测置信度的伪标签信息增强监督,并进一步减轻标签噪声的影响。从另一个角度看,PIGNN [43] 关注节点之间的成对交互(PI)信息,以帮助学习耐噪声的 GNN,说明 PI 信息比点对方法引入的噪声更少。以一种解耦的方式,它首先估计 PI 标签,然后利用 PI 信息作为正则化项来指导鲁棒模型的训练。此外,对比学习是一种利用相似和不相似数据对比学习稳健表示的机器学习范式。CR-GNN [44] 利用无监督邻居对比损失,并引入动态交叉熵损失。具有一致预测的节点被特别选定为交叉熵损失的可靠节点,为应对标签噪声过度拟合提供了有效对策。此外,该模型结合交叉空间一致性以最小化对比和分类空间之间的语义差距。此外,类似于嘈杂标签,对抗性标签翻转攻击涉及在数据集中策略性地操纵标签,以在训练期间误导机器学习模型,但目的是故意引入误分类以进行对抗目的。CP [45] 通过开发 LafAK 攻击模型来应对对抗性标签翻转攻击。该模型建立在 GNN 的近似闭式形式上,并采用连续化策略处理不可微目标。提出了一个防御框架,结合保持社区属性的自监督任务作为正则化策略,以减轻过拟合。
样本重新加权。 利用记忆效应,对小损失样本进行训练成为缓解嘈杂标签挑战的一种特别有前景的方法 [143]。在样本重新加权的背景下,策略涉及在训练损失中减小大损失样本的权重,从而增强与干净标签相关的监督能力。受到边缘预测器的启发,RTGNN [46] 结合了样本重新加权和损失正则化技术。利用小损失原则,RTGNN 过滤出干净标签并减少训练过程中嘈杂标签的影响。此外,RTGNN 引入内部强化和一致性正则化作为额外的监督形式,旨在增强模型的鲁棒性。
错误标记转移矩阵(MTM)。MTM 有助于描述不同类别节点的错误标记情况,有效捕获噪声形成的潜在模式。通过利用该矩阵,它在处理嘈杂标签时引导训练过程。GraphCleaner [47] 首先利用验证集学习 MTM,然后使用估计的 MTM 作为合成错误标记数据集生成器来训练噪声检测器。
5.1.2 标签校正方法
标签校正方法 [49]、[52] 提供了一种更直观的解决方案,通过识别潜在具有不正确标签的节点并对其进行校正,以确保可靠的训练。常见的校正技术包括标签传播、邻居投票等。这些标签校正技术有助于在训练数据中提高标签的准确性,最终增强模型在学习过程中对嘈杂标签影响的鲁棒性。
表2:针对标签噪声和结构噪声的图方法概览。
(a). 标签噪声
方法 | 数据类型 | 核心思想 | 实现与细节 |
---|---|---|---|
NRGNN [42] | 节点级 | 损失校正 | 边连接,伪标签学习 |
PIGNN ∣ 45 ∣ 2 |45|^{2} ∣45∣2 | 节点级 | 损失校正 | 两两交互 |
CR-GNN [44] | 节点级 | 损失校正 | 对比学习,样本选择 |
C P [ 45 ] \mathrm{CP} [45] CP[45] | 节点级 | 损失校正 | 防御学习 |
RTGNN [46] | 节点级 | 损失校正 | 小损失过滤,自我强化 |
GraphCleaner [47] | 节点级 | 损失校正 | MTM,邻居一致性 |
标签C | |||
GNN Cleaner [49 ] ] ] | 节点级 | 标签校正 | 传播 |
ERASE [50] | 节点级 | 标签校正 | 标签传播 |
CGNN [51] | 损失与标签校正 | 对比学习,邻居投票 | |
LP4GLN [51] | 节点级 | 标签校正 | 传播 |
D-GNN [157] | 图级 | 损失校正 | MTM,反向损失校正 |
OMG [138 ] ] ] | 图级 | 损失与标签校正 | 耦合Mixup,对比学习 |
(b). 结构噪声
方法 | 结构学习 | 后处理 | 图正则化 |
---|---|---|---|
GRCN [53] | 基于核的度量学习 | k N N k \mathrm{NN} kNN | 稀疏化 |
GNNGuard [54] | 基于核的度量学习 | ϵ N N \epsilon \mathrm{NN} ϵNN | 稀疏化 |
GDC [55 ] ] ] | 基于核的度量学习 | k N N , ϵ N N k \mathrm{NN}, \epsilon \mathrm{NN} kNN,ϵNN | 稀疏化 |
GLCN [56 ] ] ] | 基于神经的度量学习 | k N N k \mathrm{NN} kNN | 稀疏化 |
IDGL [57] | 基于神经的度量学习 | ϵ N N \epsilon \mathrm{NN} ϵNN | 稀疏化,平滑性,社区 |
SLAPS 58 ‾ ] \overline{58}] 58] | 基于神经的度量学习 | k N N k \mathrm{NN} kNN | 稀疏化 |
DropEdge [59] | 边级采样 | ϵ N N \epsilon \mathrm{NN} ϵNN | 稀疏化 |
DropCONN [60] | 边 | - | 平滑性 |
FastGCN [62] | 节点级采样 | - | 2 |
PTDNet [61 ] ] ] | 边级采样 | 稀疏化,平滑性,社区 | |
NeuralSparse [63] | 边级采样 | k N N k \mathrm{NN} kNN | 稀疏化 |
GraphSAGE [81] | 节点级采样 | k N N k \mathrm{NN} kNN | 稀疏化 |
TO-GCN [65 ] ] ] | 直接优化 | - | 平滑性 |
PRO-GNN [66] | 直接优化 | - | 稀疏化,平滑性,社区 |
DHGR [67] | 直接优化 | - | 平滑性,社区 |
GLNN [145] | 直接优化 | - | 稀疏化,平滑性 |
邻居投票。 邻居投票通过考虑邻居节点中的大多数标签确定节点的校正标签。该方法假设相邻节点可能相似,强调在校正潜在嘈杂标签时利用局部邻域信息的影响。CGNN [52] 结合了损失校正和标签校正。它利用图对比学习作为正则化项,避免使用标签信息以防止过拟合嘈杂标签。通过预测/注释节点的标签与邻居之间的一致性来过滤嘈杂标签,合理利用标签信息。对于被过滤的嘈杂节点,它使用邻居投票机制校正标签。
5.1.3 讨论
除了针对标签噪声进行节点级鲁棒性GNN训练外,一些研究还专注于图级训练。图级训练的目标是在存在嘈杂标记图的情况下为未标记图获得最佳标签预测。例如,D-GNN [137] 估计MTM并执行反向损失校正,向后一步暴露干净标签。OMG [138] 整合了耦合Mixup和图对比学习技术来解决嘈杂标签问题。它还引入了一种邻居感知去噪策略,以增强样本邻域的平滑性。
表2(a)展示了针对嘈杂标签的图方法概览。总的来说,在图数据中嘈杂标签问题的研究仍然相对有限。因此,研究和提出新的策略来抵抗噪声,从而增强模型的可靠性和鲁棒性是值得的。此外,嘈杂标签问题可能出现在其他任务中,如迁移学习 [146]、不平衡学习 [147] 和分布外 [148]。进一步的调查和细致的研究也是值得的。
5.2 结构噪声
GNN中的结构噪声指的是图结构中存在的无关或嘈杂信息,可能会对GNN模型的性能产生负面影响。由于错误可能会通过消息传递机制在整个图中传播 [10],GNN极易受到结构噪声的影响。因此,输入图结构的质量对于实现最佳GNN性能至关重要。解决结构噪声的主流方法是图结构学习(GSL),其重点是在执行下游任务之前优化图结构。GSL的目标是优化邻接矩阵 A ∗ \mathbf{A}^{*} A∗ 和相应的表示 Z ∗ = f ( X , A ∗ ) \mathbf{Z}^{*}=f\left(\mathbf{X}, \mathbf{A}^{*}\right) Z∗=f(X,A∗),其中 Z ∗ ∈ R ∣ V ∣ × d ′ \mathbf{Z}^{*} \in \mathbb{R}^{|\mathcal{V}| \times d^{\prime}} Z∗∈R∣V∣×d′, d ′ ≪ d d^{\prime} \ll d d′≪d,以减少结构噪声。解决图上的结构噪声的研究可分为度量学习方法、基于采样的方法和直接优化方法。接下来的章节将全面介绍每种方法的概况。
5.2.1 度量学习方法
度量学习方法将度量函数视为可学习参数,并通过学习成对表示的度量函数 ϕ ( ⋅ , ⋅ ) \phi(\cdot, \cdot) ϕ(⋅,⋅) 来优化图结构:
A ~ i j = ϕ ( z i , z j ) , \begin{equation*} \tilde{\mathbf{A}}_{i j}=\phi\left(\mathbf{z}_{i}, \mathbf{z}_{j}\right), \tag{4} \end{equation*} A~ij=ϕ(zi,zj),(4)
其中 z i \mathbf{z}_{i} zi 是节点 v i v_{i} vi 的学习嵌入表示, A ~ i j \tilde{\mathbf{A}}_{i j} A~ij 表示节点 v i v_{i} vi 和 v j v_{j} vj 之间的学习边权重。通过更新函数 g ( ⋅ , ⋅ ) g(\cdot, \cdot) g(⋅,⋅) 得到优化后的矩阵 A ∗ \mathbf{A}^{*} A∗:
A ∗ = g ( A , A ~ ) . \begin{equation*} \mathbf{A}^{*}=g(\mathbf{A}, \tilde{\mathbf{A}}) . \tag{5} \end{equation*} A∗=g(A,A~).(5)
根据度量函数 ϕ ( ⋅ , ⋅ ) \phi(\cdot, \cdot) ϕ(⋅,⋅) 的不同实现,度量学习方法可分为基于核和基于神经的方法。此外, k N N k \mathrm{NN} kNN(即每个节点最多有 k k k 个邻居)和 ϵ N N \epsilon \mathrm{NN} ϵNN(即边的权重小于 ϵ \epsilon ϵ 将被移除)是两种常见的后处理操作,用于修剪边并实现图稀疏化。
基于核的方法。这种方法使用核函数作为度量函数 ϕ ( ⋅ , ⋅ ) \phi(\cdot, \cdot) ϕ(⋅,⋅) 来计算节点之间的边权重。GRCN [53] 是一种图卷积网络,用于预测缺失边并根据节点嵌入修订边权重。它使用点积作为核函数来计算每个节点之间的相似性。GNNGuard [54] 旨在保护GNN免受对抗攻击。它识别并移除图中可疑或虚假边,从而调整神经消息的流动以确保稳健的预测。GNNGuard 使用余弦相似度作为核函数评估图中每个连接的相关性。图扩散卷积(GDC)[55] 使用广义图扩散进行图稀疏化和改善学习结果,允许从更广泛邻域聚合信息。GDC 使用扩散核函数量化边连接:
A ~ = ∑ k = 0 ∞ θ k T k \begin{equation*} \tilde{\mathbf{A}}=\sum_{k=0}^{\infty} \theta_{k} \boldsymbol{T}^{k} \tag{6} \end{equation*} A~=k=0∑∞θkTk(6)
其中广义转移矩阵 T \boldsymbol{T} T 和权重系数 θ k \theta_{k} θk 满足 ∑ k = 0 ∞ θ k = 1 \sum_{k=0}^{\infty} \theta_{k}=1 ∑k=0∞θk=1。注意, T \boldsymbol{T} T 可以是随机游走转移矩阵 T r w = A D − 1 \boldsymbol{T}_{r w}=\mathbf{A D}^{-1} Trw=AD−1 和对称转移矩阵 T sym = D − 1 / 2 A D − 1 / 2 \boldsymbol{T}_{\text {sym }}=\mathbf{D}^{-1 / 2} \mathbf{A D}^{-1 / 2} Tsym =D−1/2AD−1/2,其中 D \mathbf{D} D 是节点度的对角矩阵。
基于神经的方法。相较于基于核的方法,基于神经的方法使用更复杂的神经网络作为度量函数 ϕ ( ⋅ , ⋅ ) \phi(\cdot, \cdot) ϕ(⋅,⋅) 来计算节点之间的边权重并学习优化图结构。GLCN [56] 旨在通过学习最佳图结构来改进GCN在半监督学习任务中的性能。它利用图学习层计算两个节点之间的相似性,并生成用于后续卷积操作的最佳自适应图表示 A ~ \tilde{\mathbf{A}} A~。形式上,它学习一个图 A ~ \tilde{\mathbf{A}} A~:
A ~ i j = exp ( Re L U ( α ⊤ ∣ z i − z j ∣ ) ) ∑ j = 1 ∣ V ∣ exp ( Re L U ( α ⊤ ∣ z i − z j ∣ ) ) ) \begin{equation*} \left.\tilde{\mathbf{A}}_{i j}=\frac{\exp \left(\operatorname{Re} L U\left(\alpha^{\top}\left|\mathbf{z}_{i}-\mathbf{z}_{j}\right|\right)\right)}{\sum_{j=1}^{|\mathcal{V}|} \exp \left(\operatorname{Re} L U\left(\alpha^{\top}\left|\mathbf{z}_{i}-\mathbf{z}_{j}\right|\right)\right)}\right) \tag{7} \end{equation*} A~ij=∑j=1∣V∣exp(ReLU(α⊤∣zi−zj∣))exp(ReLU(α⊤∣zi−zj∣)))(7)
其中 Re L U ( ⋅ ) = max ( 0 , ⋅ ) \operatorname{Re} L U(\cdot)=\max (0, \cdot) ReLU(⋅)=max(0,⋅) 是激活函数, α = ( a 1 , a 2 , ⋯ , a p ) ⊤ ∈ R p × 1 \alpha=\left(a_{1}, a_{2}, \cdots, a_{p}\right)^{\top} \in \mathbb{R}^{p \times 1} α=(a1,a2,⋯,ap)⊤∈Rp×1。IDGL [57] 迭代地优化图结构和GNN参数,以改进节点嵌入和预测准确性。它使用加权余弦相似度作为度量函数来优化图结构。
A ~ i j p = cos ( w p ⊙ z i , w p ⊙ z j ) , A ~ i j = 1 m ∑ p = 1 m A ~ i j p , \begin{equation*} \tilde{\mathbf{A}}_{i j}^{p}=\cos \left(\mathbf{w}_{p} \odot \mathbf{z}_{i}, \mathbf{w}_{p} \odot \mathbf{z}_{j}\right), \tilde{\mathbf{A}}_{i j}=\frac{1}{m} \sum_{p=1}^{m} \tilde{\mathbf{A}}_{i j}^{p}, \tag{8} \end{equation*} A~ijp=cos(wp⊙zi,wp⊙zj),A~ij=m1p=1∑mA~ijp,(8)
5.2.2 基于采样的方法
基于采样的方法涉及根据特定能力分布从原始输入图中随机采样边或节点,以生成一个精炼的图结构。这种方法允许在图神经网络训练过程中进行部分和随机子集聚合,从而减轻结构噪声并增强模型的鲁棒性。此外,基于采样的方法可以根据其与下游任务的相关性进一步分类。
与任务无关的方法。 这种方法涉及采样或丢弃,而不考虑它们与下游任务的关系。DropEdge [59] 是一种边级采样技术,通过在训练过程中随机移除输入图中的一定比例边来改进图卷积神经网络(GCN)。这种技术作为一种无偏数据增强形式,减少了节点之间的消息传递强度。类似地,DropCONN [60] 是一种有偏图采样技术,旨在减轻图对抗攻击的影响。它通过构建随机和变形的子图来惩罚对抗性边缘操作,对图学习产生了显著的正则化效果。
与任务相关的方法。 与直接改变图结构不同,任务相关的方法寻求来自下游任务的反馈以进行改进。PTDNet [61] 是一种边级方法,通过一个参数化网络丢弃与任务无关的边,旨在去噪图并增强模型的泛化能力。它还使用核范数正则化对图施加低秩约束,以确保更好的泛化能力。FastGCN [62] 是一种节点级方法,通过根据节点的重要性而不是均匀采样来提高GCN的训练效率。它解决了与GCN中邻域递归扩展相关的计算挑战,而不会牺牲准确性。类似地,NeuralSparse [63] 使用基于结构和非结构信息的深度参数化神经网络有选择地移除与任务无关的边。GraphSAGE [8],作为最著名的图神经网络模型之一,也可以被视为一种邻居级别的采样方法。GraphSAGE通过对邻居的特征进行采样和聚合来生成节点嵌入,这可以泛化到未见过的节点并具有归纳性能。
5.2.3 直接优化方法
直接优化方法将邻接矩阵视为可学习参数,其原则是通过应用特定的正则化或优化方法来优化图,包括稀疏化 [64]、[66]、[145]、平滑性 [65]、[66]、[145]、社区性 [66]、[67] 等。
稀疏化。 这种方法是一种典型的正则化策略,旨在减少图的复杂性,同时保留重要信息并最小化相关任务的损失。GSML [64] 是一种图稀疏化方法,采用元学习原则进行有效的稀疏化。它将图结构视为一个超参数,并有选择地从图中删除边,以保持或甚至提高具有更轻图结构的分类准确性。
平滑性。 这种方法基于一个普遍的假设,即图信号在相邻节点之间变化平滑 [151]。这一假设通常指的是特征和标签的平滑性,假设附近和相连的节点可能共享相同的标签或类似的节点特征。TO-GCN [65] 使用标签平滑性正则化,通过充分利用标签和拓扑信息,共同交替优化网络拓扑并更新GCN参数。Pro-GNN [66] 使用特征平滑性正则化来恢复清洁的图结构,通过联合更新GNN参数,辅助其他技术如低秩和稀疏化。
图 5:围绕私人数据和模型权重的攻击和防御示意图。攻击模型的目标是从目标图神经网络中提取私人信息。作为回应,模型需要采取措施并保护隐私免受攻击模型的侵害。
社区性。这种方法假设相似的节点更有可能相连。通常用于限制图中连接组件的数量,这是低秩正则化的本质。DHGR [67] 假设相似的节点应该通过同质边连接而不是异质边连接,它根据节点在标签或特征分布中的相似性添加同质边并修剪异质边。
5.2.4 讨论
总的来说,上述提到的这些方法涵盖了广泛的主题,包括元学习 [64]、对抗攻击 [54]、[60]、[66]、[152]、图修订 [53]、[56]、[66]、图采样 [59]、[60],以及其他方法 [153]、[154]。这些研究的主要思想是优化图结构并增强图的鲁棒性。张等人 [155] 进行了一项比较研究,确定了三种处理图神经网络结构噪声的方法:基于采样的方法、基于修订的方法和基于构建的方法。然而,这些类别之间存在一些重叠,因为一些方法共享一些共同点。因此,我们建议将这些方法在更细粒度的层面上分类为度量学习方法、采样方法和直接优化方法。表2(b) 总览了针对图结构噪声的方法。
6 隐私
由于其出色的性能,图神经网络在涉及各种关系数据的现实场景中越来越受欢迎。金融、电子商务、社交网络、医疗分析等应用领域更多或少涉及隐私问题,而大多数现有的图神经网络方法未能解决 [18]、[118]。大多数图神经网络模型本质上容易受到隐私攻击,类似于许多其他类型的深度学习模型 [156]。图5呈现了图神经网络模型在解决隐私问题方面的一般框架,而表3总结了解决隐私问题的现有代表性作品。接下来的章节将深入探讨每种策略,提供全面的概述。
表3:针对图神经网络模型的隐私攻击/防御方法概述。
方法 | 攻击或防御 | 关注的问题 | 实现与细节 |
---|---|---|---|
He 等人 68 | 攻击 | 成员推断 | 节点级,黑盒 |
He 等人 69 ‾ \overline{69} 69 | 攻击 | 成员推断 | 边级,黑盒 |
Wu 等人 70 | 攻击 | 成员推断 | 图级,黑盒 |
Duddu 等人 71 ] ] ] | 攻击 | 重构攻击 | 节点级,黑盒 |
GraphMI 72] | 攻击 | 白盒,重构邻接矩阵 | |
efazio 等人 73] | 攻击 | 模型提取 | 对抗框架 |
Wu 等人 74] | 攻击 | 模型提取成员推断 | 考虑各种信息泄漏 |
DPNE 75 i 75 i 75i | 防御 | 差分隐私 | |
PrivGn 76 | 防御 | 成员推断 | 差分隐私 |
DP-GNN 77 | 防御 | 隐私 | |
KProp 78 | 防御 | 成员推断成员推断 | 差分隐私 |
GERAI 79 ] ] ] | 防御 | 成员推断 | 差分隐私 |
DP-GCN 82] | 防御 | 属性推断 | 潜在因子解缠 |
DGCF 15 π 15 \pi 15π | 防御 | 属性推断属性重构 | 解缠 |
GAL 80 | 防御 | 对抗训练 | |
APGE 81] | 防御 | 属性重构 | 潜在 |
SpreadGNN 83 | 联邦学习 | ||
D-FedGNN 84 | 防御 | 一般隐私问题一般隐私问题模型提取 | 联邦学习 |
GraphErase | 防御 | 机器遗忘 | |
防御 | 模型所有权验证 | ||
MIAGraph δ 0 ‾ \overline{\delta 0} δ0 | 攻击与防御 | 成员推断 | 差分隐私 |
重构邻接矩阵。先前的研究人员还指出,对特征的临时解释有助于对结构进行重构攻击 [165]。 |
模型提取攻击。 模型提取攻击对通过 API 访问的大型模型的安全构成了巨大威胁 [166]。它可以作为其他类型隐私攻击的一个跳板 [18]。这些攻击者的目标是通过学习一个行为类似的模型来提取目标模型的信息,复制其性能和决策边界。早期尝试使用了对抗性框架,并实现了与受害模型输出的 80 % 80 \% 80% 相似度 [73]。更近期的工作提出了更多方法的变体,并声称实现了与受害模型 90 % 90 \% 90% 的保真度 [74]。
还有一些其他分类隐私攻击方法的方式。例如,它们可以根据模型参数或梯度是否可访问将其分类为白盒和黑盒攻击 [167]。甚至在联邦学习设置下,如果我们针对中间计算,也可以进行白盒攻击 [71]。
6.2 隐私保护
另一方面,人们已经努力防止图神经网络泄露隐私。有许多不同的方法可以使 GNN 模型更不易受到隐私攻击 [118]。
差分隐私。 差分隐私(DP)是一种常见方法,可以为任何训练数据提供隐私保证,无论是独立同分布的数据还是图数据。DP 的关键思想是,当两个数据集 D \mathcal{D} D 和 D ′ \mathcal{D}^{\prime} D′ 仅在少量记录上有所不同时,对 D \mathcal{D} D 和 D ′ \mathcal{D}^{\prime} D′ 运行相同算法的输出应该非常相似。DP 通过添加随机噪声严格控制数据集中任何单个样本的影响。因此,这是一种非常有用的方法,可以防止某些类型的攻击,特别是成员推断攻击,DP 的有效性通过理论证明得到保证 [168]。DPNE [75] 对矩阵因子化方法应用客观扰动,因为当时的最先进图嵌入技术(即 DeepWalk 和 LINE)等效于从邻接矩阵中提取一些矩阵进行因子化。MIAGraph [86] 引入了输出扰动和同质性减少技术,以减轻受害模型的脆弱性。PrivGnn [76] 使用随机污染数据训练私有 GNN 模型作为教师模型,然后利用教师生成的伪标签来训练要发布的学生模型。DP-GNN [77] 通过使用差分隐私随机梯度下降(DP-SGD)来训练,改变节点的梯度以使其更安全。KProp [78] 在消息传递步骤之前向节点特征添加随机噪声,并期望聚合函数平均掉注入的噪声,同时保持性能合理。GERAI [79] 针对推荐系统的成员隐私问题,使用双阶段加密范式,通过扰动用户特征同时强制执行隐私保证,并通过优化扰动损失来保证模型性能。
潜在因子分离。 在典型的 GNN 模型中,学习的嵌入既包含敏感的私人信息,又包含对实现下游任务性能有用的非敏感信息 [81]。APGE [81] 基于图自动编码器模型,其中解码器附加了包含隐私信息的标签,因此在敏感信息被分离后,最终嵌入被强制成为标签不变。在某些情况下,一个属性是否被视为隐私信息因节点而异。DP-GCN [82] 设计了一个包含分离表示学习模块和节点分类模块的框架。第一个模块将潜在表示分离为敏感和非敏感组件,同时使它们相互正交。第二个模块训练 GCN 仅从非敏感潜在表示中学习下游节点分类任务。实验证明,DP-GCN 可以通过分离公共用户信息(例如,在线公布年龄的男性)来增强私人用户(例如,保密年龄信息的女性)的隐私保护。DGCF [157] 进行图协同过滤同时分离不同意图,因此也可以用于生成更安全的嵌入而不泄露敏感信息。
对抗训练。 直接降低某些潜在形式攻击的性能是防御的直观角度。张等人将这种隐私保护策略称为对抗训练 [118],而戴等人则将其称为对抗隐私保护 GNNs [18]。总体而言,关键思想是训练模型以最小化某些特定类型隐私攻击的性能,同时保持下游任务的合理性能。GAL [80] 模拟最坏情况的攻击者,并学习对其进行图信息混淆。APGE [81],作为一个分离方法,也可以被归类为对抗训练方法,因为它使用对抗自动编码器来学习隐私分离的图嵌入。另一方面,NetFense [169] 提出了一种基于图扰动的方法(例如对邻接矩阵进行更改)来愚弄攻击者,而不是以对抗方式更新模型本身。
联邦学习。 联邦学习(FL)是一种允许多个客户端(例如不同公司和机构)协作训练模型的范式,而无需彼此透露原始数据的方法 [170]。因此,FL 被广泛认为是一种有前途的隐私保护方法。FL 的关键思想是从每个客户端(例如梯度)收集优化所需的本地信息,然后在中央服务器上全局更新参数 [119]。这个框架只允许本地服务器访问其原始数据,从而防止潜在信息泄露。根据图数据的分布方式,图 FL 模型可以大致分为三种类型:(i)图间 FL,每个客户端有一部分图样本 [171],(ii)图内 FL,每个客户端获得一个子图 [172],以及(iii)分散 FL,客户端之间平等通信并在没有中央服务器的情况下聚合信息 [173]。FL 也面临着自己的问题。例如,SpreadGNN [83] 旨在解决在具有部分标签的分散设置下的训练问题,使用 DPA-SGD,而 D-FedGNN [84] 则以稍有不同的方式解决这个问题,例如使用 DP-SGD。
6.3 讨论
除了我们上面列出的方法,还有许多其他保护隐私的方式,例如机器遗忘 [85],它允许完全删除节点,就好像它们从未存在于训练集中一样。例如,GraphErase [85] 使用平衡的图分区算法在节点删除后保持良好的结果。还有其他方法,如模型所有权验证 [158],[159],它向模型添加水印以保护模型参数。
隐私保护的需求正在增加。许多现实世界的在线平台正在加强对数据收集的限制。从这个角度看,隐私攻击和保护将来将不仅仅是有趣的,而且是未来的必要。在许多情况下,训练良好的大型模型总是被视为需要保密的商业机密。在其他一些场景中,模型本身可以安全地开源和发布,而用于训练模型的数据集却非常敏感。总之,必须考虑 GNN 上的隐私,以避免在现实场景中引发问题。此外,隐私保护技术也可能有助于解释性或鲁棒性。
7 非分布
尽管 GNN 具有强大的表示能力,但当测试样本分布与训练样本的分布显著偏离时,它们往往表现出不适当和过度自信的混合。在本节中,我们深入探讨图中的非分布(OOD)问题。在图中,有两种常见的 OOD 场景:OOD 检测和 OOD 泛化。图 6 展示了这两种场景在 GNN 中的基本示意图。接下来,我们将详细讨论这两个方面。
7.1 非分布检测
图中的 OOD 检测旨在区分测试样本与主要的分布(ID)训练数据。在现实世界的应用中,这已经成为一个重要问题。形式上,我们假设有一个 ID 图数据集 D in = { D 1 i n , ⋯ D N 1 i n } \mathcal{D}^{\text {in }}=\left\{D_{1}^{i n}, \cdots D_{N_{1}}^{i n}\right\} Din ={D1in,⋯DN1in} 和一个 OOD 图数据集 D out = { D 1 out , ⋯ D N 2 out } \mathcal{D}^{\text {out }}=\left\{D_{1}^{\text {out }}, \cdots D_{N_{2}}^{\text {out }}\right\} Dout ={D1out ,⋯DN2out },其中数据分别从主要分布 P 2 n \mathbb{P}^{2 n} P2n 和 OOD 分布 P o u t \mathbb{P}^{o u t} Pout 中采样。图中的 OOD 检测的一般目的是根据学习的检测器 g g g 来识别其源分布(即 P i n \mathbb{P}^{i n} Pin 或 P o u t \mathbb{P}^{o u t} Pout)。
g ( D ; τ , s , f θ ) = { D ∈ P in , if s ( D , f θ ) ≤ τ D ∈ P out , if s ( D , f θ ) ≥ τ g\left(D ; \tau, s, f_\theta\right)=\left\{\begin{array}{lll}D \in \mathbb{P}^{\text {in }}, & \text { if } & s\left(D, f_\theta\right) \leq \tau \\ D \in \mathbb{P}^{\text {out }}, & \text { if } & s\left(D, f_\theta\right) \geq \tau\end{array}\right. g(D;τ,s,fθ)={D∈Pin ,D∈Pout , if if s(D,fθ)≤τs(D,fθ)≥τ,
其中 f θ f_{\theta} fθ 是带有参数 θ \theta θ 的训练模型, s s s 是一个评分函数, τ \tau τ 是相应的阈值。数据 D D D 可以是节点或对应于节点级或图级任务的图。
图 6:现实世界中 GNN 训练中的OOD问题示意图。当模型在观察到的分布数据上进行训练时,OOD数据的存在需要开发用于OOD检测和泛化的机制。
7.1.1 基于传播的方法
与计算机视觉和自然语言处理中的OOD检测不同,那里的OOD样本是独立同分布的,通常只出现在测试集中,ID和OOD节点在一个图中连接,用于节点级OOD检测。传播方法的核心动机是借鉴标签传播(LP)或GNN中的消息传播的思想,以转移一些现有的不确定性估计定义。GPN [87] 探索了OOD节点检测的不确定性量化。该方法通过沿着图传播节点级估计来扩展依赖输入的贝叶斯更新,并明确地建模了沿图传播的认知不确定性和随机不确定性。GNNSage [88] 提出了基于能量函数的节点级OOD检测,并引入了基于能量的信念传播,通过在图中的节点之间迭代地传播估计的能量分数。OODGAT [89] 明确地模拟了ID和OOD节点之间的交互,并在特征传播过程中区分这两种类型的节点。OSSNC [90] 学习混合邻居以减轻在变分推断框架中传播到和从OOD节点的传播,用于同时进行节点分类和OOD检测。
7.1.2 基于分类的方法
另一种典型的OOD检测方法源自一个简单的基准线,它使用最大 softmax 概率作为ID性的指标分数 [174]。AAGOD [91] 提出了一种数据中心的事后方法,而不是为图级OOD检测重新训练模型。该方法采用可学习的放大器生成器来扩大OOD和ID图之间的指标分数差距。一些基于分类的方法还专注于节点级OOD检测和图异常检测。BWGNN [92] 使用 Beta 小波核作为GNN中的定制谱滤波器进行节点异常检测。GKDE [93] 考虑了节点级OOD检测的多维不确定性。iGAD [94] 将图级异常检测视为图分类的特例,并提出了一个双判别框架,结合了GNN和图核方法来学习标签。
7.1.3 基于自监督学习的方法
由于在图结构化数据上进行数据标记通常耗时且劳动密集 [182],最近的研究也考虑到类标签和OOD样本的稀缺性。基本思想是基于未标记的ID数据学习用于图上OOD检测的自监督框架,该方法主要集中在图级OOD检测或异常检测上。
对比学习。自监督图OOD检测的一种流行方法是通过驱动图样本的多个视图,并基于不一致性检测OOD样本。GOOD-D [95] 进行无扰动的图数据增强,并利用生成的图上的分层对比学习进行图级OOD检测。GLocalKD [96] 联合学习两个GNN,并在学习到的两个GNNS的表示之间执行图级和节点级随机知识蒸馏,以学习图级异常检测器。GRADATE [97] 提出了一个多视图多尺度对比学习框架,用于图异常检测,其中包括节点-节点、节点-子图和子图-子图对比。
图重构。此外,一些工作还通过重构机制旨在区分性表示,并推断图OOD样本。GLADC [98] 使用图对比学习来学习节点级和图级表示,并通过生成的重构图表示与原始图表示之间的误差来测量异常图,采用图卷积自编码器的方式。GraphDE [99] 对图的生成过程进行建模以表征分布转移。因此,来自不同分布的ID和OOD图表明不同的环境,并可以通过变分推断进行推断。
一类分类。一类分类的目标是训练嵌入以在定义的超球内进行聚类,建立决策边界。OCGIN [100] 研究了一个端到端的带有一类分类的GNN模型,用于异常检测。OCGTL [101] 进一步将深度一类分类方法扩展为一种自监督检测方法,使用神经变换图变换学习作为正则化。GOODAT [102] 引入了一种基于图信息瓶颈原则的图测试时OOD检测方法,以捕获信息子图。替代标签本质上是ID,可以看作是另一种一类分类。
7.1.4 讨论
图上的OOD检测研究探索了不同的评分函数来识别OOD数据,表 4 (a) 提供了图OOD检测方法的概述。除了上述方法外,一些工作还将OOD检测扩展为更具解释性。特别是图级OOD检测和异常检测,这些方法为检测分数提供了有意义的解释。例如,SIGNET [175] 提出了一种自解释的图级异常检测框架,通过最大化构建的多视图子图的互信息来同时推断图级异常分数并提供子图解释。SGOOD [176] 明确利用图子结构及其关系来学习增强的图表示,用于图级OOD检测。
7.2 OOD泛化
现实世界中OOD场景中的另一个关键挑战是图上的OOD泛化 [183],[184],旨在解决训练集和测试集之间的分布偏移。图上的OOD泛化主要包括节点级和图级任务,分别对应节点分类和图分类。在文献中,后者的任务更受欢迎。GNN 分类器表示为 F ( ⋅ ) F(\cdot) F(⋅),目标是找到最优的 F ∗ ( ⋅ ) F^{*}(\cdot) F∗(⋅),满足:
F ∗ = arg min F sup e ∈ E E ( G , y ) ∈ S e [ ℓ ( F ( G ) , y ) ] \begin{equation*} F^{*}=\underset{F}{\arg \min } \sup _{e \in E} \mathbb{E}_{(\mathcal{G}, y) \in \mathcal{S}^{e}}[\ell(F(\mathcal{G}), y)] \tag{10} \end{equation*} F∗=Fargmine∈EsupE(G,y)∈Se[ℓ(F(G),y)](10)
7.2.1 基于子图的方法
基于子图的方法 [177] 假设每个图由语义和环境信息中的关键部分和非关键部分组成。为了识别具有关键知识的子图,它们通常利用因果推断和不变理论进行有效的图表示学习。
因果推断。 一个流行的研究方向是构建结构因果图(SCM)进行理论分析,通常考虑基本元素之间的图生成过程,包括图
G
\mathcal{G}
G,不变部分
C
C
C,虚假部分
S
S
S 和地面真实标签
Y
Y
Y。如 [177] 中最简单的情况是考虑不变部分
C
C
C 和虚假部分
S
S
S 之间的相互作用。
C
C
C 由使用可学习掩码函数导出的子图表征。为了避免潜在的混淆,一个基本解决方案是确保模型对来自分布干预者的非因果部分具有不变性,这可以导致一种常见形式的损失目标,如下所示:
min
L
E
R
M
+
λ
L
V
A
R
\begin{equation*} \min \mathcal{L}_{E R M}+\lambda \mathcal{L}_{V A R} \tag{11} \end{equation*}
minLERM+λLVAR(11)
其中 L E R M \mathcal{L}_{E R M} LERM 表示训练数据集上的经验风险, L V A R \mathcal{L}_{V A R} LVAR 与使用不同模拟虚假因素的预测的方差有关。基于这一框架,通过整合不同技术开发了许多先进的变体。例如,CAL [103] 将图表示整合到 SCM 中,然后通过注意力机制和表示解缰来选择因果模式。此外,使用反门控调整理论在图表示中包含了快捷特征。CIGA [104] 考虑了具有和不具有部分不变和虚假部分之间的相互作用的图生成过程,然后通过最大化类内语义以实现不变性来识别关键子图。此外,StableGNN [105] 采用了可微分图池化运算符进行子图提取,通过减少虚假相关性来优化,使用区分正则化器。
不变理论。 如式(11)所示,基于因果的方法通常将不变理论与干预联系起来。此外,各种方法通过数据增强更直接地利用不变理论,可以为不变技术构建多样化的训练环境,以增强泛化能力。一个通用的想法是将经验风险最小化扩展为不变风险最小化,以增加对分布转移的鲁棒性。例如,SizeShiftReg [106] 使用图粗化模拟尺寸变化,并在粗化后提出了一个简单的正则化损失用于一致性学习。GIL [107] 为子图生成学习一个掩码矩阵,然后通过不变性正则化器强制模型对环境推断具有不变性。FLOOD [178] 使用节点丢弃和属性遮罩生成增强图,然后使用对比学习架构进行自举学习,以生成有区别的图表示。MoleOOD [108] 使用变分推断产生环境变化,引导不变学习以提高 OOD 泛化能力。LiSA [109] 构建带有信息约束的变分子图生成器,通过能量正则化促进不同子图的多样性。EERM [110] 引入不同上下文来模拟虚拟环境,这些环境经过对抗训练用于节点级不变学习。
7.2.2 对抗学习方法
对抗学习已被广泛应用于 OOD 泛化 [186] 以减少领域差异,自然地扩展到图数据。这些方法利用对抗学习生成有效扰动以增强泛化能力。一些工作 [113] 还引入了领域分类器,该分类器经过对抗训练以增强图表示在不同领域之间的不变性。对于节点级任务,FLAG 提出了一种广义图增强策略,更新节点属性以增加损失目标的梯度。相反,AIA [111] 为环境和稳定特征分别生成并合并两个掩码,用于生成具有不同环境的增强数据,同时保持语义不变。AIA 还涉及正则化项来约束扰动,以确保优化过程的稳定性。LECI [112] 基于 [104] 中的不同假设提供因果分析以消除虚假相关性。为实现这一目标,它利用对抗学习确保子图与标签和环境独立,其中包括一个带有环境标签的环境鉴别器。DAGNN [113] 将经典领域自适应框架融入图 OOD 泛化中,通过对抗训练培训领域分类器来融合源数据和目标数据。GraphAT [114] 向目标图添加可学习扰动,训练这些扰动以降低平滑度,解决最坏情况问题。CAP [179] 在模型参数和节点属性的邻域最大化训练损失,可以减轻陷入局部最小值的风险。WT-AWP [115] 将对抗权重扰动调整为图分类的正则化项,应用于部分层以缓解潜在的梯度消失。几种领域自适应方法还利用对抗学习来使图表示在不同领域之间对齐 [116],[187]。例如,DEAL [116] 利用节点属性和节点特征的对抗扰动将源图转移到目标领域。总之,这些对抗学习方法可以在嵌入空间中隐式减少不同领域之间的分布差异。然而,它们通常需要领域或环境标签的先验知识。
7.2.3 讨论
表 4 ( b ) 4(\mathrm{~b}) 4( b) 提供了图 OOD 泛化方法的详细概述。除了上述工作外,更多关于 OOD 泛化的技术也被扩展到这个问题,包括对比学习 [104],[178] 和表示去相关化 [120],[180]。对比学习旨在最大化每个样本在不同增强下与其他样本的表示之间的一致性,有助于在 OOD 泛化问题中生成有区别的表示。表示去相关化旨在保持图中目标语义,同时消除由分布转移导致的虚假相关性。还通过理论分析研究了 OOD 链路预测的性能。除了标准的 OOD 泛化,一些方法 [192],[193] 采用测试时训练来增强 OOD 转移下的性能。这些方法仍然需要在测试时更新 GNN 模型。为了促进这一关键问题的研究,已经构建了两个广泛的基准 [183],[194]。这些问题也被应用于更多实际的科学研究,包括分子性质预测 [108],化学动力学性质预测 [195],以及药物发现 [196]。
8 结论和未来工作
总之,本文全面介绍了现实世界 GNN 如何解决四个关键挑战:不平衡、噪声、隐私和 OOD。这些方面在大多数文献综述中经常被忽视。我们首先讨论了现有 GNN 模型的脆弱性和局限性,揭示了关键挑战。随后,我们详细介绍了现有 GNN 模型解决每个关键因素的框架和原则,并进行了详细分类。我们还突出了代表性工作的关键技术贡献,并以一些探索性讨论结束。尽管在解决现实世界 GNN 方面取得了显著进展,但在这一领域仍有未来研究的有希望方向,我们在这里进一步分析:
增强可扩展性。现有研究主要集中在小规模图数据集中的不平衡、噪声、隐私和 OOD 问题,而在现实世界中更普遍的大规模图数据集中留下了很大的差距。这些问题在大规模图中变得更加复杂,要求模型设计具有更高的性能和效率。例如,
G
2
G
N
N
\mathrm{G}^{2} \mathrm{GNN}
G2GNN [37] 通过使用图核计算图相似性来构建图的图,从而缓解了不平衡问题,但图核和成对相似性计算的使用限制了其在大规模图中的适用性。此外,探索在小规模图上进行预训练,然后将其推广到大规模图,这些大规模图可能不平衡、嘈杂或分布不一致,是一个有趣且重要的方向。
更多的理论保证。建立理论保证对于开发可靠的现实世界 GNN 模型至关重要。然而,先前对 GNN 的理论理解主要集中在它们的表达能力上 [202], [203],而针对 GNN 在复杂的现实场景中如噪声干扰和 OOD 泛化的理论保证仍未得到充分探讨。针对这些场景的理论分析可以验证 GNN 模型处理自然干扰或蓄意攻击的能力,促进它们在安全关键应用中的部署。例如,最近,GraphGuard [204] 提供了针对图结构和节点特征扰动的理论防御保证,用于图分类,展示了模型对有限攻击的可靠性。研究更多现实场景的理论保证,如类别不平衡和标签噪声,并进一步提供统一的理论分析框架,对于 GNN 在关键现实世界背景中的更广泛应用至关重要。
全面的基准测试和通用模型。这些现实场景通常是单独研究的,很少被全面考虑。现有模型大多设计和优化用于特定场景,在这些情境中表现良好,但在许多其他场景中失败。例如,为图领域自适应设计的 UDA-GCN [187] 在具有噪声标签的图迁移学习中失败,这是一个更复杂和现实的场景 [146]。因此,提出一个全面的现实世界图基准测试是必要的,可以系统评估模型应对各种现实挑战的能力,并提供一个综合评分。这一基准测试可以显著推动图神经网络模型在现实应用中的发展和公平比较。同时,利用这一基准测试,开发一个具有高综合评分的通用适用且稳健模型是一个非常有前景的方向。
朝着更加现实的应用迈进。开发更加现实的 GNN 模型对于在各个领域进行更多现实世界应用至关重要。例如,GNN 被用于分析蛋白质相互作用网络 [205]。这些网络可能存在高度不平衡,某些蛋白质比其他蛋白质更常见。GNN 有助于识别新的相互作用,这对于理解疾病和开发新药至关重要。此外,当应用于新生物体或研究较少的蛋白质时,模型可能面临 OOD 数据。在金融领域,GNN 在检测大型复杂金融网络中的欺诈交易方面非常有效 [131]。欺诈交易通常很少见(类别不平衡),并且可能呈现 OOD 模式。GNN 可以分析道路网络以优化自动驾驶车辆的路线 [206]。交通状况的变化和道路关闭的不确定性带来了 OOD 挑战。因此,期望现实的 GNN 模型通过采用在线学习技术适应新的交通数据和不断变化的环境。