【图神经网络】 IDGL原文精讲（全网最细致篇）-CSDN博客

本文链接：https://blog.csdn.net/weixin_47332746/article/details/143856443

请添加图片描述

GCN 网络系列

论文精讲部分
0. 摘要
1 引言
2 迭代深度图学习框架
- 2.1 问题定义
- 2.2 图学习和图嵌入：统一视角
2.3 将图学习视为相似性度量学习
3 实验
4 相关工作
5 笔者总结

论文精讲部分

本专栏深入探讨图神经网络模型相关的学术论文，并通过实际代码实验来提高理解。读者可以根据个人需求选择感兴趣的内容进行学习。本章节详尽解读了“IDGL模型”的原始论文，适合希望深入了解的读者。对于零基础或初学者，推荐阅读我编写的入门内容，它非常适合新手，点击这里查看易懂的GCN入门材料。在本章节中，大部分内容将直接引用原论文翻译，而对论文的理解和分析则以引用格式呈现，旨在清晰展示对当前研究主题的深入见解。考虑到相关资料相对稀缺，希望各位可以给个免费的点赞收藏。

在这里插入图片描述

😃如果您觉得内容有帮助，欢迎点赞、收藏，以及关注我们哦！👍

论文地址
https://arxiv.org/pdf/2006.13009

0. 摘要

在本文中，我们提出了一个端到端的图学习框架，名为迭代深度图学习（Iterative Deep Graph Learning，IDGL），用于联合并迭代地学习图结构和图嵌入。

模型不同的是传统的GCN着重通过图结构对节点嵌入进行更新，进而分类。
而本文提出的框架简单的理解就是一个图结构的特征工程。其主要能力则是在迭代过程中对表示图结构的邻接矩阵进行更新。这个创新主要是其提出了一种通用框架通过优化图结构从而实现节点分类性能的提升。

IDGL的核心理念是基于更优的节点嵌入学习更好的图结构，反之亦然（即，基于更好的图结构得到更好的节点嵌入）。

这个观点确实很有洞察力。在图神经网络（GNN）中，节点分类任务的成功与否很大程度上依赖于 GNN 生成的嵌入表示的质量。嵌入表示的质量不仅受到上游任务产生的基础节点嵌入的影响，也与 GNN 的卷积行为密切相关。此外，GNN 的卷积行为受到图结构指导的影响，因此图结构的优劣直接决定了嵌入表示的质量以及最终下游任务的表现。这种依赖关系强调了优化图结构以提高嵌入质量的重要性，这对于提高节点分类的准确性至关重要。

我们的迭代方法在学到的图结构足够接近于优化下游预测任务的图时动态停止。此外，我们将图学习问题视为一个相似度度量学习问题，并利用自适应图正则化来控制学习到的图的质量。最后，结合锚点基准近似技术，我们进一步提出了一个可扩展版本的IDGL，即IDGL-ANCH，它显著降低了IDGL的时间和空间复杂度，而不损失性能。我们在九个基准数据集上进行的广泛实验表明，我们提出的IDGL模型可以一致地优于或匹配最先进的基线方法。此外，IDGL能更好地抵抗对抗性图，并能应对推导学习和归纳学习。

在正常的摘要部分大多数人都会将创新点的高度总结了，你读完论文再看比较好，要不然过于抽象，当然有一部分创新点比较简单或者是其说话比较直白可能看懂些。

1 引言

近年来，图神经网络（Graph Neural Networks，GNNs）领域引起了极大的兴趣，特别是在开发更有效地应用在节点分类[29, 36, 17, 52]、图分类[60, 43]和图生成[47, 37, 61]的GNNs上。尽管GNNs在学习具有表达力的节点嵌入方面具有强大的能力，但不幸的是，它们只能在图结构数据可用的情况下使用。

传统GNN只能使用有图结构的数据，如果要是没了图结构则不能使用GNN进行聚合。

许多实际应用天然地适用于网络结构数据（例如，社交网络）。

首先抛出一句话，GNN应用场景巨大。

然而，这些固有的图结构并不总是最优的，特别是对于下游任务而言。

但是，图结构中存在噪声问题，或者是其并非最优的。

这部分是因为原始图是基于原始特征空间构建的，这可能并不反映特征提取和转换后的“真实”图拓扑。另一个潜在原因是现实世界的图往往因为数据测量或收集的错误而噪声过大或甚至不完整。

一部分有图结构的数据集，图结构存在两种问题。一种就是图结构上是基于节点的相似度构建的，这可能很难反应数据的真实图结构，存在真实图结构的又存在噪声问题，可能会影响模型聚合。

此外，许多应用，如自然语言处理[7, 57, 58]，可能只有顺序数据或甚至只有原始特征矩阵，需要从原始数据矩阵构建额外的图。

还有些数据没图

总结下，作者说有些有图的数据集的图结构不够好，还有些没图的数据集也想用上GNN技术，那该怎么办呢，看看咱们给你提出的一种你有图我能帮你优化，你没图我能帮你构建图后优化。就是你有车我帮你修车，你没车我帮你造车后修车。总能满足你。

为了解决这些限制，我们提出了一个端到端的图学习框架，名为迭代深度图学习（Iterative Deep Graph Learning，IDGL），用于联合并迭代地学习图结构和针对下游预测任务优化的GNN参数。

针对上述问题，本文提出了一种能够优化图结构的策略以应对上述问题汇总GNN、不可用，不好用的情况。

我们IDGL框架的关键理念是基于更好的节点嵌入来学习更好的图结构，同时，基于更好的图结构来学习更好的节点嵌入。

两个理念是互补的，好的图结构会生成一个好的节点嵌入。这句话很好理解就是GNN通过好的图结构得到了一个好的节点嵌入。更好的节点嵌入来学习更好的图结构。这句话的意思是你的节点嵌入质量高则使用knn构图的图结构质量也很好。两者是相辅相成的。

但是笔者有一个问题就是你最初的图可能质量不好但是你生成了节点嵌入质量，也不行就是一个反向的过程越来越来垃圾，难道你默认GNN后的嵌入就是比之前好吗？？全文将的比较含糊，后续代码看了之后再来回答这个问题吧。

特别地，IDGL是一种新颖的迭代方法，旨在搜索一个隐式图结构，该结构增强了初始图结构（如果不存在，我们使用kNN图）以优化下游预测任务的图。迭代方法通过在每个小批量中调整何时停止，当学到的图结构足够接近于针对下游任务优化的图时停止。

基于前面的观点这里作者认为存在一个隐式图结构，能够增强原始图结构生成一个较好的节点嵌入的能力。所以针对这一假设让模型去找这样的图结构。

此外，我们提出了一个使用多头自注意力和ε-邻域稀疏化来构建图的图学习神经网络。

这里面说的比较高端，哈哈哈哈哈，我来戳破你的高大上的假象。这个使用多头自注意力就是使用GAT中的多组W进行注意力计算，这不就出现了一个多组的注意力矩阵了。人为的选择使用和这个注意力矩阵的构图大小就是KNN构图K值的选择。人家这个说法还是很厉害的👍。这样讲多组图重叠就得到了一个图。

而且，不像[25]中的工作直接优化邻接矩阵而不考虑下游任务，我们通过优化结合了特定任务预测损失和图正则化损失的联合损失函数来学习图度量学习函数。

论文的主要工作

最后，我们通过结合基于锚点的近似技术进一步提出了我们IDGL框架的可扩展版本，即IDGL-ANCH，它将时间和内存复杂度从与图节点数量的平方降到线性。

论文的次要工作

提出了两种模型一个使用多头自注意力和ε-邻域稀疏化来构建图的图学习神经网络另一个IDGL-ANCH对其复杂度的问题进行控制。

简而言之，我们的主要贡献如下：

我们提出了一个新颖的端到端图学习框架（IDGL），用于联合并迭代地学习图结构和图嵌入。当学习到的图结构接近于优化的图（用于预测）时，IDGL会动态地停止。据我们所知，我们是首次引入迭代学习用于图结构学习。
结合锚点基近似技术，我们进一步提出了IDGL的一个可扩展版本，即IDGL-ANCH，它在计算时间和内存消耗上都实现了与图节点数量线性相关的复杂度。
实验结果显示，我们的模型在各种下游任务上一致性地优于或匹配最先进的基线。更重要的是，IDGL能更好地抵抗对抗性图示例，并且能处理包括推断学习和归纳学习在内的学习方式。

2 迭代深度图学习框架

2.1 问题定义

设图 $G = (V, E)$ 表示为 $n$ 个节点 $v_i \in V$ 的集合，具有初始节点特征矩阵 $\in \mathbb{R}^{d \times n}$ ，边 $(v_i, v_j) \in E$ （二元或加权）构成初始含噪声的邻接矩阵 $A^{(0)} \in \mathbb{R}^{n \times n}$ ，以及度矩阵 $D^{(0)}$ 其中 $D^{(0)}_{ii} = \sum_{j} A^{(0)}_{ij}$ 。

简单的定义了图结构，特征信息，边信息，以及邻接矩阵。这里使用 $A^{(0)}$ 初试的图结，被定义成了一个带噪声的邻接矩阵。度矩阵

给定一个含噪声的图输入 $G = (A^{(0)}, X)$ 或仅一个特征矩阵 $\in \mathbb{R}^{d \times n}$ ，本文考虑的深度图学习问题是生成一个优化的图 $G^* = (A^{*}, X)$ 及其对应的图节点嵌入 $f(G^*, \theta) \in \mathbb{R}^{h \times n}$ ，关于某个（半）监督下游任务。

就是改进图结构，再用GNN聚合生成一个高质量的节点嵌入表示。 $A^{*}$ 就是一个被改进的高质量的邻接矩阵。

值得注意的是，我们假设图的噪声仅来自图拓扑（邻接矩阵），而节点特征矩阵 $X$ 是无噪声的。更具挑战性的情景，即图拓扑和节点特征矩阵均含噪声，是我们未来工作的一部分。在本文中，不失一般性，我们考虑节点级和图级的预测任务。

叠个甲，就是引入一个条件，仅仅考虑去优化图结构。所以假定结构中存在噪声，相对而样，如果是节点特征矩阵有噪声就是另外一个领域的问题了。NLP。或者其他的领域实际上个人觉得这就是不是一个方向考虑的问题了。

2.2 图学习和图嵌入：统一视角

这一章节的目的就是为了让读者能够理解这个作者提出的先验条件。现阶段使用的图不是最优解还需要优化，所以给出了小章节阐述自己为什么会这样的一个先验条件呢？？

图结构对于图神经网络（GNN）学习表达力强的图节点嵌入至关重要。大多数现有的GNN方法简单地假设输入图拓扑是完美的，这在实践中并非总是真实的，因为现实世界的图往往是嘈杂或不完整的。

这里提到的是GNN默认其数据的完美性，我觉得这个仅仅是为了引入后面的观点的自说自话，其观点性不强。整个领域仅仅卷的就是在有噪声的条件下谁能跑的更快更好，而你这改结构也仅仅是在已有的GNN下开辟新的赛道。比如你说GNN在某一个数据集下表现不行，你对数据集使用特征工程(transformer)增强了随之而来的GNN性能提升了，你说你改进了GNN？？？同样的道理，这个文章仅仅对图结构做了一个好点的特征工程。

更重要的是，提供的输入图可能并不理想用于监督下游任务，因为大多数原始图是从原始特征空间构造的，这可能未能反映经过高级特征转换后的“真实”图拓扑。

作者的假设是你原始图都可能有问题，更何况使用knn依赖于特征构建的图了。

一些先前的工作[52]通过在先前学习的节点嵌入上使用自注意力来重新加权邻域节点嵌入的重要性，解决了这个问题，这仍然假设原始图连接信息是无噪声的。

上文中指出GAT中认为，需要针对任务选择邻居，所以GAT假设图链接是无噪声的。个人认为这个噪声也是针对任务的，汝之蜜糖彼之砒霜。所以其仅仅是为了引入，只有我的工作是考虑到了结构的噪声问题。当然这是论文的写作技巧，不再过多评价了。

为了处理潜在的嘈杂输入图，我们提出了我们的新颖IDGL框架，将问题构 formulate 成一个迭代学习问题，该问题联合学习图结构和GNN参数。我们IDGL框架的关键理念是基于更好的节点嵌入来学习更好的图结构，同时，基于更好的图结构来学习更好的节点嵌入，如图2所示。

将对结构的改进融入到模型的损失计算中，使其可根据任务的目的动态的调整结构，从而产生更适合当前任务的结构特性。其目的就是为了提高模型分类性能，所以其会根据分类结构优化GNN中的参数以及改进图结构模型部分参数，实现模型的动态特性。我们IDGL框架的关键理念是基于更好的节点嵌入来学习更好的图结构，同时，基于更好的图结构来学习更好的节点嵌入，如图2所示。再次强调这个思想，现阶段看来就是特征工程的问题。模型性能存在上限那就优化输入特征吧。并且其提到模型是一个端到端的模型就是可以自由的选择的需要的模型呗，也可以简单的理解不和你们卷GNN了我卷更加宏观的架构问题。

与大多数现有方法基于原始节点特征构建图不同，

现阶段都是通过初始特征改进图。计算相似度然后增加边连接不同。

由GNN学习的节点嵌入（针对下游任务优化）可以提供学习更好图结构的有用信息。

基于这样的理论我们IDGL框架的关键理念是基于更好的节点嵌入来学习更好的图结构，同时，基于更好的图结构来学习更好的节点嵌入，如图2所示。 GNN聚合后节点嵌入质量一定很高，所以，其使用这特征基于相似度构图。

这样两者就是反复循环♻️相互成就。

另一方面，新学习的图结构可能是一个更好的图输入，用于GNN学习更好的节点嵌入。特别是，IDGL是一种新颖的迭代方法，旨在搜索一个增强初始图结构的隐式图结构（如果不可用，我们使用kNN图）用于下游预测任务。迭代方法在每个小批次中动态停止，当学习到的图结构足够接近于针对下游任务优化的图（根据我们提出的停止标准）时停止。此外，图构建过程可以以端到端的方式针对下游任务进行优化。

在这里插入图片描述

上面这个图就是论文中图2，一开始是将初始的节点嵌入和图结构送入GNN中生成新的节点嵌入，将GNN的节点嵌入送到图学习器中生成一个新图，然后再将GNN的节点嵌入和新图送图GNN中进行学习，以此循环往复♻️。

2.3 将图学习视为相似性度量学习

以往的方法（例如，[L. Franceschi, M. Niepert, M. Pontil, and X. He. Learning discrete structures for graph neural
networks. arXiv preprint arXiv:1903.11960, 2019.）将图学习问题建模为学习图边上的联合离散概率分布，已经展示了有希望的性能。

就是有一部分工作认为，可以将这个节点是否连接去使用一个模型预测，去预测这样的一样多分类问题。让模型去判断这个节点该和谁连接，同样这就出现一个问题，这个目标连接的节点一定要出现过，并且其位置不能改变。显然这就不适用于大图。一万个节点难道真的要一万个多分类吗。

然而，由于这些方法通过假设图节点已知来优化边的连通性，它们无法应对归纳设置（在测试期间出现新节点）。为了克服这一问题，我们将图结构学习问题转化为相似性度量学习，这将与专门用于下游任务的预测模型一起进行联合训练。

同样如果你用相似性度量就能灵活的去判断一个新节点要喝水连接，仅仅用特征去比对就可以，相似节点特征才能有边的连接，这是一种先验条件。图结构中应用较多。

图相似性度量学习。常见的度量学习方法包括余弦相似性[44, 54]、径向基函数（RBF）核[59, 34]和注意力机制[51, 23]。一个好的相似性度量函数应该是可学习的并且表达能力强。尽管我们的框架对于各种相似性度量函数是不可知的，但为了不失一般性，我们设计了一个加权余弦相似性作为我们的度量函数， $s_{ij} = \cos(w \odot v_i, w \odot v_j)$ ，其中 $\odot$ 表示哈达玛积， $w$ 是一个可学习的权重向量，其维度与输入向量 $v_i$ 和 $v_j$ 相同，并学习突出向量的不同维度。注意，这两个输入向量可以是原始节点特征或计算得到的节点嵌入。

$s_{ij} = \cos(w \odot v_i, w \odot v_j)$ 使用全连接对特征进行提取后再计算相似度。最终选择的还是和GAT中一样的度量方式不懂的可以看下GAT的论文详解部分。

为了稳定学习过程并增加表达能力，我们将我们的相似性度量函数扩展到多头版本（类似于[51, 52]中的观察结果）。

才用了多组w。和多个卷积核的作用是一致的。或者说是GAT中的多头注意力。其实可以看到作者是收到了GAT的启发的整体注意力逻辑一致的。

具体来说，我们使用 $m$ 个权重向量（每个代表一个视角）来计算 $m$ 个独立的相似性矩阵，使用上述相似性函数，并取其平均值作为最终的相似性：

$s_{ij}^{(p)} = \cos(w_p \odot v_i, w_p \odot v_j), \quad s_{ij} = \frac{1}{m} \sum_{p=1}^m s_{ij}^{(p)}$
直观地说， $s_{ij}^{(p)}$ 计算了输入向量 $v_i$ 和 $v_j$ 在第 $p$ 个视角的余弦相似性，其中每个视角考虑了向量中捕获的一部分语义。

最终得到的多组相似度矩阵进行了均值处理。这个简单的理解就是GAT中的注意力矩阵多组进行了均值化

通过 ε-邻域的图稀疏化。通常一个邻接矩阵（由度量计算得出）应该是非负的，但 $s_{ij}$ 的范围在 [-1, 1] 之间。

这是因为是神经网络计算出来的了，被激活使用的leakyReLU所以在 [-1, 1] 之间啊。

此外，许多底层图结构比全连接图更稀疏，全连接图不仅计算代价高昂，也可能引入噪声（即，不重要的边）。

说这句话的意思就是注意力矩阵做图边太多，需要选择边信息。就是knn构图的思路，选择数值大的留，数值小的都裁切掉。

因此，我们继续通过仅考虑每个节点的 ε-邻域来提取一个对称的稀疏非负邻接矩阵 $A$ ，具体来说，我们将 $S$ 中小于非负阈值 ε 的元素遮蔽（即，设置为零）。

过多的噪声会导致模型的性能下降，所以引入了一个超参数从而让一些数值较小的边不连接。文中仅仅是将小于0的不做连接

基于锚点的可扩展度量学习。上述相似性度量函数，如方程（1）所示的，为所有图节点对计算相似性得分，这需要 $O(n^2)$ 的时间和内存复杂度，对于大型图来说带来了显著的可扩展性问题。

上述方式仅仅能够在小图可用，在大图上会出问题。这是一个能不能分批计算的问题。
所以提出了大图可扩展技术。这是同样技术在大图领域的实现方式了。这个部分我们先不讨论，后续和附录一起讨论。不是核心创新点。

为了解决可扩展性问题，受到先前锚点方法[41, 55]的启发，我们设计了一种基于锚点的可扩展度量学习技术，该技术学习节点-锚点亲和矩阵 $\in \mathbb{R}^{n \times s}$ （即，时间和空间复杂度为 $O (n s)$ ，其中 $s$ 是锚点的数量），在节点集 $V$ 和锚点集 $U$ 之间。注意， $s$ 是在开发集上调整的超参数。具体来说，我们从节点集 $V$ 中随机采样 $s$ 个锚点 $U$ ，其中 $s$ 通常远小于大型图中的 $n$ 。我们在节点-锚点亲和性得分 $a_{ik}$ 中应用 ε-邻域稀疏化技术，以得到稀疏和非负的节点-锚点亲和矩阵 $R$ 。请添加图片描述

基于锚点的可扩展度量学习技术

在图学习和节点分类任务中，当图非常大时，直接计算和存储整个图的节点相似性矩阵或邻接矩阵会导致巨大的计算和存储负担，因此提出了一种基于锚点的可扩展度量学习技术来解决这个问题。

技术概述

锚点定义与选择：

锚点是从图中的节点集合 ( V ) 随机选出的 ( s ) 个节点，其中 ( s ) 通常远小于图中的节点总数 ( n )。
这些锚点充当“代表”，通过它们来简化和近似整个图的结构和信息。

节点-锚点亲和矩阵 ( R )：

亲和矩阵 ( R ) 的大小为 $\mathbb{R}^{n \times s}$ ，它表示图中所有节点与这些锚点之间的亲和关系（或相似性）。
每个节点到每个锚点的亲和力通过某种相似性度量（如余弦相似性）计算得到，可以使用权重向量 ( w ) 加权调整。

时间和空间复杂度：

这种方法的复杂度为 $O (n s)$ ，相比于传统的 $O(n^2)$ 有显著降低，使得对于大规模图的处理成为可能。

ε-邻域稀疏化技术：

为了进一步降低存储和计算的负担，对亲和矩阵 $R$ 应用 ε-邻域稀疏化技术，即只保留那些大于某个阈值（非负阈值 ε）的元素，其他元素设置为零。
这样可以得到一个稀疏且非负的节点-锚点亲和矩阵，减少了噪声和不重要的边。

基于锚点的可扩展度量学习技术可以被视为一种高效的图采样技术。

上面已经提到了图是如何进行构建的技术。下文讲解如何进行分类预测。

2.4 图节点嵌入和预测

尽管初始图可能含有噪声， 它通常仍然携带有关真实图拓扑的丰富且有用的信息。

客观而言基础图结构不能丢弃，其作为真实数据的反应丢失实际上不利于GNN适用。即使有噪声和信息价值而言，噪声可以先忽略。

理想情况下，学习到的图结构 $A$ 可以作为原始图拓扑 $A^{(0)}$ 的补充，以形成针对GNN的优化图。因此，在温和假设下，优化的图结构可能是从初始图结构中“偏移”出来的，我们将学习到的图与初始图结合，
请添加图片描述
$A^{～(t)} = \lambda L^{(0)} + (1 - \lambda) \left( \eta f(A^{(t)}) + (1 - \eta) f(A^{(1)}) \right)$

上述公式可以类比成某种残差结构。使用最初构建的矩阵和新的矩阵进行合并，最后用于模型的聚合操作。这里贴两个公式的目的原始公式符号过多不好打，不想忽视掉过多的细节信息所以这里采用直接贴原图这his
这是一个残差，防止模型忘记第一次通过特征相似计算得到的图结构，和当前时间构建的进行拼接。

这是第二个残差防止忘记原始的图结构。两个残差给优化的图结构兜底防止其变差。

其中 $L^{(0)} = D^{(0)^{-1/2}} A^{(0)} D^{(0)^{-1/2}}$ 是初始图的归一化邻接矩阵。 $A^{(t)}$ 和 $A^{(1)}$ 分别是在第 $t$ 次和第 $1$ 次迭代计算的两个邻接矩阵（使用方程 (1)），邻接矩阵进一步行归一化，即 $f(A)_{ij} = \frac{A_{ij}}{\sum_j A_{ij}}$ 。注意 $A^{(1)}$ 是从原始节点特征 $X$ 计算得到的，而 $A^{(t)}$ 是从之前更新的节点嵌入 $Z^{(t-1)}$ 计算得到的，这是针对下游预测任务进行了优化的。因此，我们将最终学习到的图结构作为它们的线性组合，通过超参数 $\eta$ 加权，以结合两者的优势。最后，另一个超参数 $\lambda$ 用于平衡学习到的图结构和初始图结构之间的权衡。如果没有这样的初始图结构，我们改用基于原始节点特征 $X$ 使用余弦相似度构建的 kNN 图。

我们的图学习框架对各种GNN架构（以节点特征矩阵和邻接矩阵作为输入以计算节点嵌入）和预测任务是不可知的。

文中提出的基础框架仅仅使用了GCN进行实验，但是其提出的是一种思想。所以不用过的纠结，自行选择即可。

在本文中，我们采用了两层GCN [29]，其中第一层（记为 GNN1）将原始节点特征 $X$ 映射到中间嵌入空间，第二层（记为 GNN2）进一步将中间节点嵌入 $Z$ 映射到输出空间。

GNN1 进行特征映射，而GNN2则更多的是进行分类的映射

这里主要解释下为什么有没有这个帽子hat，就是自连接的问题，由于打印出现问题，我这里贴上原始论文的公式。

请添加图片描述

$\text{ReLU}(M(X, A^～) W_1), \quad y = \sigma(M(Z, A^～) W_2), \quad L_{\text{pred}} = l(y^～, y)$
其中 $\sigma(\cdot)$ 和 $l(\cdot)$ 分别是任务依赖的输出函数和损失函数。例如，对于分类任务， $\sigma(\cdot)$ 是用于预测一组类别上的概率分布的 softmax 函数，而 $l(\cdot)$ 是用于计算预测损失的交叉熵函数。 $M(\cdot, \cdot)$ 是信息传递函数，在GCN中， $M (F, A) = A F$ 是针对特征/嵌入矩阵 $F$ 和归一化的邻接矩阵 $A$ 计算的。

可以看到Z公式是第一次聚合即上文的GNN1。为什么用MP实际上是因为MPNN是早期的图神经领域博文，仅仅是为了表明这是一个聚合器。卷积核的意思。然后A有一个帽子就是自连接，W是权重矩阵，进行线性映射，最后激活得到结果Z。然后将Z作为节点的特征第二次聚合操作，即使送入到GNN2中这个y的帽子表示预测的记过，最终计算结束，开始算损失优化反复即可。

下面就是提供的针对大图可扩展性版本。本章节不讨论这个版本的内容，先来基础的版本。

节点-锚点消息传递。注意节点-锚点亲和矩阵 $R$ 用作二部图 $B$ 的加权邻接矩阵，仅允许节点和锚点之间的直接连接。如果我们将节点和锚点之间的直接过渡视为由 $R$ 描述的一步转移，在静态马尔可夫随机游走理论[42]的框架下，我们实际上可以通过计算两步过渡概率从 $R$ 恢复节点图 $G$ 和锚点图 $Q$ ，
$\Delta^{-1} R \Lambda^{-1} R^T$
其中 $\Lambda$ 和 $\Delta$ 都是对角矩阵，
$\Lambda_{kk} = \sum_{i=1}^n R_{ik}, \quad \Delta_{ii} = \sum_{k=1}^s R_{ik}$
类似地，我们可以恢复锚点图 $Q$ 的行归一化邻接矩阵 $B$ ，
$\Lambda^{-1} R^T \Delta^{-1} R$
从亲和矩阵恢复节点和锚点图的详细证明提供在附录 A.1 中。虽然显式计算来自 $R$ 的节点邻接矩阵 $A$ （方程 (5)）并直接在节点图 $G$ 上执行消息传递（方程 (4)）在时间复杂性（ $O(n^2 s)$ ）和空间复杂性（ $O(n^2)$ ）上都是昂贵的，但可以相当地将上述过程（记为 MP12）分解为两步：i) 节点到锚点的消息传递 MP1 和 ii) 锚点到节点的消息传递 MP2，这两步在节点-锚点二部图 $B$ 上进行，表达如下，
$MP2(F_1, R), \quad F_1 = MP1(F, R)$
其中 $\Lambda^{-1} R^T F$ 旨在将消息 $F$ 从节点 $V$ 传递给锚点 $U$ ， $MP2(F_1, R) = \Delta^{-1} R F_1$ 旨在将聚合在锚点上的消息 $F_1$ 进一步传回节点。最终，我们可以获得 $\Delta^{-1} R \Lambda^{-1} R^T F = A F$ ，其中 $A$ 是使用方程 (5) 从 $R$ 恢复的节点邻接矩阵。这样，我们将时间和空间复杂度降低到 $O (n s)$ 。因此，我们可以重写常规节点嵌入和预测方程，如方程 (3) 和 (4) 定义的，
$\text{ReLU}(MP_{\text{app}}(X, t L^{(0)}, R^{(t)}, R^{(1)} u) W_1), \quad y = \sigma(MP_{\text{app}}(Z, t L^{(0)}, R^{(t)}, R^{(1)} u) W_2)$
其中 $MP_{\text{app}}(\cdot, \cdot)$ 是与方程 (3) 同精神的混合消息传递函数，定义为，
$MP_{\text{app}}(F, t L^{(0)}, R^{(t)}, R^{(1)} u) = \lambda MP(F, L^{(0)}) + (1 - \lambda) \left( \eta MP12(F, R^{(t)}) + (1 - \eta) MP12(F, R^{(1)}) \right)$
注意我们使用与方程 (4) 中定义的相同的 $MP(\cdot, \cdot)$ 函数来执行在实践中通常稀疏的 $L^{(0)}$ 上的消息传递，且 $F$ 可以是 $X$ 或 $Z$ 。

2.5 图正则化

****************************************************************** *这部分很重要 *******************************************

首先正则化在正常的网络中会让模型优化的更好，这实际上是让一个单目标的任务变成多目标，从而让模型的目的更全面达到的损失优化的目的。
在这里我多说几句，懂得同学可以跳过。

。正则化技术是一种非常重要的方法，用于改善模型的泛化能力，即在未见数据上的表现。它可以通过引入额外的信息或约束减少过拟合的风险。让我们更详细地探讨正则化如何将单一目标任务转化为多目标优化问题，从而达到更全面的训练目标。

正则化的作用

避免过拟合：过拟合是机器学习中常见的问题，尤其是在深度学习模型中，模型因为拥有大量的参数而倾向于非常好地适应训练数据，但这可能导致在新的、未见过的数据上表现不佳。正则化通过对损失函数添加一个额外的惩罚项，抑制模型复杂度，帮助模型在训练数据上不过度拟合。在避免过拟合的时候正则化就是惩罚项
多目标优化：在本文中的更新邻接矩阵时候正则化这是优化目标可以更好的更新图结构
- 在没有正则化的情况下，训练神经网络通常是通过最小化一个目标函数，例如分类任务中的交叉熵损失或回归任务中的均方误差。
- 加入正则化后，目标函数变为原始损失加上一个正则项（如L1正则、L2正则），这实际上是在优化两个或更多的目标：一方面减少预测误差，另一方面控制模型复杂度或确保参数稀疏。这就把原本的单一目标优化转变为了一个多目标优化问题。
正则化的形式：
- L1正则化（Lasso）：倾向于产生稀疏的权重矩阵，即很多权重会变成0，这有助于特征选择。
- L2正则化（岭回归或权重衰减）：倾向于让权重值分布更为平均，避免某些权重过大而对模型预测产生不成比例的影响。
- Dropout：虽然不是传统意义上的正则化方法，但它通过在训练过程中随机丢弃（关闭）一部分网络节点的方式，有效地减少了模型的复杂度，从而起到类似正则化的效果。
实际影响：
- 正则化帮助模型在保持足够复杂度进行有效学习的同时，避免在训练集上过度优化，从而在未见样本上能达到更好的效能。

尽管将学习到的图 $A^{(t)}$ 与初始图 $A^{(0)}$ 结合是接近优化图的一种有效方式，学习到的图 $A^{(t)}$ 的质量在提高最终图 $A^{(t)}$ 的质量中扮演着重要角色。

这句话就是理论很美好，但是现实实践层面还是很多小问题，让这个优化问题求解变得不像想象中的那么容易，就是需要增加约束才能让模型像想象中的方向走。

在实践中，控制得到的学习图 $A^{(t)}$ 的平滑性、连通性和稀疏性是重要的，这些性质真实反映了图拓扑相对于初始节点属性 $X$ 和下游任务的关系。

实践操作中要构造一个好用的图要符合上述的特性，其就是人们对图的先验直觉平滑性、连通性和稀疏性。

假设特征矩阵 $X$ 的每一列被视为一个图信号。对于图信号，一个广泛采纳的假设是相邻节点间的值变化平滑。给定一个具有对称加权邻接矩阵 $A$ 的无向图， $n$ 个图信号 $x_1, \ldots, x_n \in \mathbb{R}^d$ 的平滑性通常通过狄利克雷能量来衡量，
$\Omega(A, X) = \frac{1}{2n^2} \sum_{i,j} A_{ij} ||x_i - x_j||^2 = \frac{1}{n^2} \text{tr}(X^T L X)$

啥信号啥的描述的确实很高大上。就是一句话相邻关系的节点特征接近，所以期望这个欧米茄的数值很小。可以看下仅仅就是中心节点和邻居节点特征的减法如果一致则最终数值是很小的。主要是为了引入这个约束条件

其中 $\text{tr}(\cdot)$ 表示矩阵的迹， $L = D - A$ 是图拉普拉斯算子， $\sum_j A_{ij}$ 是度矩阵。可以看出，最小化 $\Omega(A, X)$ 促使邻近节点具有相似特征，从而强制图信号在与 $A$ 关联的图上平滑。

然而，仅最小化平滑性损失会导致平凡解 $A = 0$ 。

同样如果仅关注一个数值模型就会学习到一个很傻瓜的方式最小化这个图结构，就是让邻接矩阵为0.这样就会最小化上述的公式。所以不能单目标的最小化。

此外，控制得到的图的稀疏性也是可取的。依照 [25] 的做法，我们对学习到的图施加额外约束，

作者指出不是他创造的，不过这个才是性能的关键。
构图能提升性能的关键点

请添加图片描述
$-\frac{\beta}{n} 1^T \log(A1) + \frac{\gamma}{n^2} ||A||_F^2$
其中 $||\cdot||_F$ 表示矩阵的弗罗贝尼乌斯范数。第一项通过对数屏障惩罚形成断开的图，第二项通过惩罚第一项导致的大度数来控制稀疏性。

通过增加对一个构建图的各种约束从而让这个图的改进向我们有利的方向进行梯度更新

然后，我们定义总的图正则化损失为上述损失的总和 $L_G = \alpha \Omega(A, X) + f(A)$ ，这能够控制学习图的平滑性、连通性和稀疏性，其中 $\alpha$ 、 $\beta$ 和 $\gamma$ 都是非负超参数。

上面这个LG图损失函数很重要。作为损失去约束生成图符合直觉要求。 $L_G = \alpha \Omega(A, X) + f(A)$
$-\frac{\beta}{n} 1^T \log(A1) + \frac{\gamma}{n^2} ||A||_F^2$

****************************************************************** *这部分很重要 *******************************************

使用了两个损失一个是
$-\frac{\beta}{n} 1^T \log(A1) + \frac{\gamma}{n^2} ||A||_F^2$
一个是
$\Omega(A, X) = \frac{1}{2n^2} \sum_{i,j} A_{ij} ||x_i - x_j||^2 = \frac{1}{n^2} \text{tr}(X^T L X)$
这一章节就这么点事约束条件

锚点图先忽略。

锚点图正则化。如方程 (6) 所示，我们可以在 $O(n s^2)$ 的时间复杂度下获得锚点图 $Q$ 的行归一化邻接矩阵 $B$ 。为了控制学习到的节点-锚点亲和矩阵 $R$ 的质量（这可以间接控制节点邻接矩阵 $A$ 的质量），我们将上述图正则化技术应用于锚点图。值得注意的是，我们提出的图正则化损失只适用于非负且对称的邻接矩阵 [26]。因此，与其对通常不对称的 $B$ 应用图正则化，不如选择对其未归一化版本 $\Delta^{-1} R^T$ 应用图正则化，
$L_G = \alpha \Omega(B', X_U) + f(B')$
其中 $X_U$ 表示从节点嵌入 $X$ 中采样得到的锚点嵌入集。

2.6 与混合损失的联合学习

与以前直接基于图正则化损失 [26] 或任务依赖的预测损失 [15] 优化邻接矩阵的工作相比，我们提出通过最小化一个结合了任务预测损失和图正则化损失的混合损失函数来联合和迭代地学习图结构和GNN参数，
即 $L_{\text{pred}} + L_G$ 。

一部分的损失用来优化GNN一部分是 $L_G$ 用来优化这个图生成器。就是之前聊的两个约束条件同样下图的这个部分就展示了 $L_G$ 实际上就是图归一化说的两个约束条件。

IDGL框架的完整算法在算法1中呈现。

请添加图片描述

我这人为的解释下上面的这个图哈，首先模型输入X，L这两个都是很简单的东西节点特征和图拉普拉斯矩阵，这个A0最初的就是GCN使用的反应原始结构的邻接矩阵如果没有用knn构造，通俗点就是A0和L实际上都差不多，这样就有了X，L和A0 送入到。通过相似计算得到了A1，这个A1会替换掉A0后面的每次使用都是A1，让模型记住第一次的构图行为然后送入到就得到了一个新的图，然后用很这个新的图进行聚合得到 $L_{pred}$ 而 $L_{G}$ 则是使用这个A1直接计算得到的，然后反复迭代。这里有一个细节需要注意就是。就是损失函数实际上优化的事多次的损失，类似于这是一个多次迭代的损失情况。具体的看代码的时候在讲解。

==
正如我们所看到的，我们的模型重复地用更新的节点嵌入细化邻接矩阵（公式 (1)），

请添加图片描述
并用更新的邻接矩阵细化节点嵌入（公式 (3) 和 (4)），

请添加图片描述

直到连续迭代之间的邻接矩阵差异小于某个阈值为止。值得注意的是，与全局使用固定迭代次数相比，我们的动态停止标准更为有利，特别是对于小批量训练。在每次迭代中，计算结合了任务依赖的预测损失和图正则化损失的混合损失。所有迭代完成后，总损失通过所有之前的迭代反向传播以更新模型参数。

请添加图片描述

上述这个伪代码过于难懂我解释下：

在这里插入图片描述
我把没用的都删除了，各位酌情理解下还是很简单的。

值得注意的是，算法1也适用于 IDGL-ANCH。IDGL 和 IDGL-ANCH 之间的主要区别在于我们如何计算邻接（或亲和）矩阵，以及如何执行消息传递和图正则化。

3 实验

在本节中，我们进行了广泛的实验来验证 IDGL 和 IDGL-ANCH 在不同设置中的有效性。我们提出的模型的实现是公开可用的，地址如下：
https://github.com/hugochan/IDGL。

数据集和基准

我们实验中使用的基准包括四个引用网络数据集（即 Cora、Citeseer、Pubmed 和 ogbn-arxiv）[48, 21]，这些数据集提供了图拓扑，

有图的数据集

三个非图数据集（即 Wine、乳腺癌 (Cancer) 和数字 (Digits)）[11]，这些数据集不存在图拓扑，

无图的数据集上述数据集都用于节点分类任务

以及两个文本基准（即 20Newsgroups 数据 (20News) 和电影评论数据 (MRD)）[32, 46]，在这里我们将一个文档视为一个包含每个单词作为节点的图。

前七个数据集都用于传递设置下的节点分类任务，我们遵循之前工作的实验设置 [29, 15, 21]。

后两个数据集用于感应设置下的图级预测任务。具体数据统计请参见附录 C.1。

我们的主要基线是 LDS [15]，然而它无法处理归纳学习问题，因此我们只报告其在传递数据集上的结果。

这里的基线是LDS。无法实现 inductive learning 这个在GAT中讨论过，所以仅仅报告期直推方式的学习结果。

此外，对于引用网络数据集，我们还包括其他 GNN 变体（即 GCN [29]，GAT [52]，GraphSAGE [18]，APPNP [30]，H-GCN [20] 及 GDC [31]）作为基线。

对于没有图拓扑的非图和文本基准，我们构想了各种 GNNkNN 基线（即 GCNkNN, GATkNN 和 GraphSAGEkNN），在应用 GNN 模型之前在数据集上构建 kNN 图。对于文本基准，我们包括了一个 BiLSTM [19] 基线。报告的结果是 5 次运行的平均值，使用不同的随机种子。

实验结果

表 1 显示了传递实验的结果。

请添加图片描述

在上文中可以看到，LDS 无法进行归纳学习。最直接的例证是它无法在大规模图数据上进行应用，这一点可以作为判断一个模型是否具备归纳学习能力的标准。究其原因，LDS 主要执行的是全图更新，无法实现对大规模图的小范围批量化处理。这种计算方式首先受限于计算机性能，其次首先与模型的更新结构，因此无法在大规模图数据上应用。这也就导致LDS 无法适应图结构的变化。实际上，这些问题来源于归纳学习和直推学习（transductive learning）之间，由各自结构特点导致的优缺点。

首先，IDGL 在 5 个基准中的 4 个上胜过所有基线。此外，与 IDGL 相比，IDGL-ANCH 更具可扩展性，并且可以达到相当或甚至更好的结果。在图结构可用的情景中，与最先进的 GNN 和图学习模型相比，我们的模型即使 GNN 组件是普通的 GCN，也实现了明显更好或有竞争力的结果。当图拓扑不可用时（因此 GNNs 直接不适用），相比于图学习基线，IDGL 在所有数据集上都持续实现了更好的结果。与我们的主要图学习基线 LDS 相比，我们的模型不仅实现了明显更好的性能，而且更具可扩展性。

请添加图片描述
表 2 显示了感应实验的结果。不同于 LDS 无法处理感应设置，IDGL 在 20News 和 MRD 上的良好表现展示了其在感应学习上的能力。

分析模型

为了评估 IDGL 对抗性图的鲁棒性，我们通过随机删除或添加边来构造图。具体来说，对于原始图中的每一对节点，我们随机地移除（如果存在边）或添加（如果不存在该边）一条边，概率分别为 25%、50% 或 75%。如图 3 所示，与 GCN 和 LDS 相比，IDGL 在两种情景中都实现了更好或相当的结果。

请添加图片描述
上图左面 GCN 和 LDS 在边添加情景中完全失败，IDGL 却表现得相当不错。我们推测这是因为边添加情景通过加入误导性的随机噪声到初始图中，使得这一情景比边删除情景更具挑战性。

为什么在删减实验上对模型的影响表现看起来没有这个增加实验那么大呢。其实就是删减实验本质上是一个提纯的过程，没有增加噪声，可能在删减的时候还删除了一些噪声。让模型更好了，还有一点就是GCN聚合需要的图结构在变好，或者说稳步下降，不需要去过多的考虑噪声的问题。所以按照图结构更新节点嵌入即可这不会考察模型对噪声的抵抗能力。，是在增加边的过程中这个能力就体现出来了。你增加边的信息过多模型无法分辨噪声问题，在一个错的道路上越走越远。所以这个时候IDGL能够改变图结构具备更高的鲁棒性。

此外，方程（3）被构造为请添加图片描述
一种跳过连接的形式，通过降低 λ 的值（即在开发集上调优），我们迫使模型更少依赖于初始的嘈杂图。

就是一个超参数，如果原始图结构噪声太多就让模型聚合依赖于新构建的图结构。

这个段落中描述了 IDGL 模型对于恶劣图结构条件（如随机添加或删除边）的处理能力和相比于其他模型如 GCN 和 LDS 的性能对比。通过实验的设置和结果解释，展示了 IDGL 在处理复杂和不稳定的图结构情况下的优势，特别强调了通过调整模型参数来减少对原始嘈杂数据依赖的方法。
请添加图片描述
在上图左侧中，我们展示了在测试阶段迭代学习过程中学习到的邻接矩阵和准确率的演化。

作者这个时候像讨论论文之前的论点，图结构和性能之间的相关性。红色的线为准确率，准确率越高这个计算得到的取值就越低。而这个计算 $\delta_{p(t)}$ 数值则是模型的约束条件，这样的目的就是判断最终的约束有用没用

我们计算连续迭代间邻接矩阵的差异，表示为 $\delta_{p(t)} = \frac{||A_{p(t)} - A_{p(t-1)}||_F^2}{||A_{p(t)}||_F^2}$ ，这个值通常范围在 0 到 1 之间。如我们所见，邻接矩阵和准确率都迅速收敛。这实际上验证了我们在附录 A.2 中对 IDGL 收敛性质的分析。请注意，这种收敛性质并非由于 GNNs 的过平滑效应所致 [56, 33]，因为在我们的实验中，IDGL 的底层 GNN 模块仅采用了两层 GCN。
请添加图片描述

我们比较了 IDGL 和 IDGL-ANCH 与其他基准的训练效率。如表 4 所示，IDGL 通常比 LDS 快，但总体上它们是可比的。注意 IDGL 的模型大小与 LDS 相当。例如，在 Cora 数据上，IDGL 的可训练参数数量为 28,836，而 LDS 为 23,040。我们还观察到 IDGL-ANCH 相比于 IDGL 有显著的速度提升。请注意，由于内存限制，我们无法在 Pubmed 上运行 IDGL。理论复杂性分析在附录 A.3 中提供。

我们还实证研究了停止策略（图 4b 和附录 B.2），可视化了 IDGL 学习到的图结构（附录 B.3），并进行了超参数分析（附录 B.4）。模型设置的详细信息提供在附录 C.2 中。

文中多次提到了附录的推导问题，我这里不做过多的讨论，再看过代码后会继续研究这个附录的内容，各位有需要欢迎催更。

4 相关工作

图结构学习问题已在不同领域从多种角度被广泛研究。在图信号处理领域，研究人员探索了从数据中学习图的各种方式 [10, 12, 53, 27, 3, 1]，这些方法通常对图施加了某些结构性约束（例如，稀疏性）。

只有通过约束才能实现对图结构的更新。

这个问题也在聚类分析文献中被研究 [4, 22]，在那里研究目标是同时执行聚类任务和学习对象间的相似性关系。这些工作都集中在无监督学习设置上，没有考虑任何监督下游任务，并且无法处理归纳学习问题。其它相关研究包括概率图模型中的结构推断 [9, 66, 62]，以及图生成 [38, 49]，这些有着与我们不同的研究目标。

这里其实还是作者团队对着领域的研究很深刻。广度和深度都到了/

在图神经网络（GNNs）领域 [29, 16, 18, 35, 63]，有一系列研究致力于开发通过利用基于注意力的方法 [5]、贝叶斯方法 [13, 64]、基于图扩散的方法 [31] 以及对图的各种假设（例如，低秩和稀疏性）[14, 24, 65] 来抵抗对抗性图的鲁棒 GNNs [50]。这些方法通常假设初始图结构是可用的。最近，研究人员探索了在应用 GNNs 到非图结构化数据时自动构建对象 [45, 8, 34, 15, 40] 或词汇 [39, 6, 7] 图的方法。然而，这些方法仅优化图以适应下游任务，没有明确控制所学习图的质量。最近，[15] 提出了 LDS 模型，通过利用双层优化技术，联合学习图和 GNNs 的参数。然而，从设计上讲，他们的方法无法处理归纳设置。我们的工作也与利用多头注意力机制学习对象间关系的变压器式方法 [51] 相关。然而，这些方法并不专注于图学习问题，并且没有设计来利用初始图结构。

5 笔者总结

在我读了这个文章也仅仅看懂了其提到这一思想，即端到端的算法框架。思想容易但是实现还是存在诸多困境，论文由于篇幅的原因多次引导读者到附录领略其工作内容，各种理论解释，确实能看到他们团队的工作能力以及工作的深度和广度，但是具体的细节还是要从代码出发去理解，学习。所以下一章节主要是还是从代码去看待这个文章，对于附录的内容看过代码后再对其进行详细的解读容易也更全面。这个文章巨大的工作量可以看出其对这一方向看的还是十分全面的。
对了对了，对这些内容感兴趣的朋友们，通过点赞、收藏和关注来表达你们的支持是对我的极大鼓励，如果你感觉还不错的话也可以打赏一杯咖啡钱，非常感谢大家！有任何问题或建议，欢迎随时通过私信与我交流。期待你们的积极参与和反馈。

下一小节将复现论文的实验结果，👏欢迎大家观看哦
在这里插入图片描述