等变超图扩散神经算子

最新推荐文章于 2024-05-18 22:12:20 发布

当交通遇上机器学习

最新推荐文章于 2024-05-18 22:12:20 发布

阅读量1.1k

点赞数 9

本文链接：https://blog.csdn.net/zuiyishihefang/article/details/138142934

版权

导读

论文题目《EQUIVARIANT HYPERGRAPH DIFFUSION NEURAL OPERATORS》。该论文发表于会议ICLR 2023，其提出了一种新的HNN架构，命名为ED-HNN，它可以可证地逼近任何连续等变超图扩散算子，可以模拟各种高阶关系。

摘要

使用神经网络来编码超图的超图神经网络（HNNs）提供了一种有前景的方式来模拟数据中的高阶关系，并进一步解决基于这些高阶关系构建的相关预测任务。然而，在实践中，高阶关系通常包含复杂的模式，并且经常具有高度的不规则性。因此，设计一个足以表达这些关系同时保持计算效率的HNN通常是具有挑战性的。受超图扩散算法的启发，本工作提出了一种新的HNN架构，命名为ED-HNN，它可以可证地逼近任何连续等变超图扩散算子，可以模拟各种高阶关系。ED-HNN可以通过将超图的星形扩展与标准消息传递神经网络相结合来有效实现。ED-HNN在处理异性超图和构建深层模型方面显示出很大的优势。作者在九个真实超图数据集上对ED-HNN进行了节点分类评估。ED-HNN在这九个数据集上均优于最佳基线，并在其中四个数据集上的预测准确率提高了超过2%。

介绍

由于普遍存在图结构化数据以及相关的推断和预测问题，最近机器学习在图上的应用引起了社区的广泛关注。当前的工作主要集中在只能模拟数据中的成对关系的图上。新兴研究表明，涉及两个以上实体的高阶关系在许多应用中往往揭示了更重要的信息。例如，高阶网络模式构成了许多现实世界网络的基本构件。会话式（多步骤）行为往往更准确地指示了网络用户的偏好。为了捕捉这些高阶关系，超图提供了一种专门的数学抽象。然而，在实践中，超图上的学习算法仍然远未发展到与图上的学习算法相当的程度。

最近，受到图神经网络（GNNs）成功的启发，研究人员开始研究超图神经网络模型（HNNs）。与GNNs相比，设计HNNs更具挑战性。首先，如前所述，由超边建模的高阶关系可能包含复杂信息。其次，现实世界中的超图中的超边通常具有大且不规则的大小。因此，在设计HNNs时，如何有效表示高阶关系同时高效处理这些不规则超边是关键挑战。

在这项工作中，受最近发展的超图扩散算法的启发，作者设计了一种新的HNN架构，该架构具有可证明的表达能力，可以近似于大类超图扩散，同时保持计算效率。超图扩散由于其透明性而非常重要，并且已广泛应用于半监督学习、排名聚合、网络分析和信号处理等领域。然而，传统的超图扩散需要首先手工设计潜在函数来建模高阶关系，然后使用它们的梯度或其变体作为扩散算子来描述超边内节点之间的扩散量的交换。设计这些潜在函数通常需要对应用程序有深入的了解，这在实践中可能是不可用的。

作者观察到，最常用的超边潜在函数是置换不变的，这覆盖了一个没有节点被视为固有特殊的高阶关系的应用场景。对于这样的潜在函数，作者进一步表明它们诱导的扩散算子必须是置换等变的。受此观察启发，作者提出了一种用于表示任何置换等变连续超图扩散算子的NN参数化架构，其NN参数可以通过数据驱动方式学习。作者还介绍了一种基于当前GNN平台的高效实现：只需要将超图的二部图表示（或星形扩展）与标准的消息传递神经网络结合起来，通过在共享参数的层上重复这种架构，最终得到了作者的模型，称为基于等变扩散的HNN（ED-HNN）。图 1 显示了超图扩散和 ED-HNN 中的关键架构的图示。

图1 超图扩散通常使用置换不变的超边势来建模高阶关系。

作者通过对涵盖异类和同类超图的9个真实数据集进行节点分类来评估ED-HNN。在这些数据集中，ED-HNN在所有基线方法上均取得了一致的优异表现，并在其中4个数据集上取得了显着的改进（> 2% ↑）。ED-HNN在深度方面也表现出极强的稳健性。作者还仔细设计了合成实验来验证ED-HNN近似预定义等变扩散算子的表达能力。

问题定义

定义 1（超图）：设 G = (V, E, X) 是一个带属性的超图，其中 V、E 分别是节点集和超边集。每个超边是 V 的一个子集。与图不同，一个超边可能包含两个以上的节点。表示节点属性，xv 表示节点 v 的属性。将节点 v 的度定义为。让 D、De 分别表示 V 中节点 v 和超边 e 的对角度量矩阵。在这里，作者使用一维属性以便进行方便的讨论，而作者的实验通常具有多维属性。学习算法将属性和超图结构结合成以下定义的（潜在）特征，这些特征可以进一步用于预测下游任务。

定义 2（潜在特征）：设表示节点的（潜在）特征。特征向量包含节点特征作为条目。进一步，将特征收集到一个超边特征向量中，其中对应于某个节点的特征。对于任意，存在一个对应的索引。稍后，如果它们不会引起混淆，作者可以交替使用下标（e，i）和（e，v）。

定义 3（超图扩散）：定义节点潜在函数，对于，以及每个的超边潜在函数。超图扩散将节点属性和超图结构相结合，并要求解决以下问题：

在实践中，通常在相同大小的超边上共享。稍后，作者忽略下标 e。这两个潜在函数通常是通过传统超图扩散文献中的启发式方法设计的。节点潜在函数通常对应于潜在特征和属性的一些负对数核。例如，当计算超图 PageRank 扩散时，可以是。超边潜在函数更为重要和复杂，因为它们需要模拟两个以上对象之间的高阶关系，这使得超图扩散与图扩散有很大的不同。

定义 4（置换不变性与等变性）：函数如果对于任何 K 维置换矩阵，对所有，则 ψ 是置换不变的。函数如果对于任何 K 维置换矩阵，对所有，则 ψ 是置换等变的。

方法论

先前设计超边潜在函数是棘手的。早期的工作采用了团或星扩展，通过将超边减少到边，并进一步使用传统的图方法。后来，研究人员证明了那些超边减少技术不能很好地表示高阶关系。因此，最近提出了基于超边的切割成本函数的Lov´asz扩展，并将其用作潜在函数。然而，设计这些基于集合的切割成本在实践中是困难的，需要大量的试验和错误。还可以在中找到其他类型的手工超边潜在函数来模拟信息传播，这些再次是手工制作的，并且在很大程度上基于启发式和评估性能。

作者的想法是使用数据驱动的方法来建模这些潜在函数，这自然地带到了HNN。一方面，作者希望利用NN的极端表达能力自动从数据中学习所需的超图扩散。另一方面，作者对于由传统超图扩散求解器启发的新型超图NN（HNN）架构感兴趣。为了实现这些目标，接下来，作者通过梯度下降算法（GD）或交替方向乘法器方法（ADMM）展示，解决目标Eq.（1）相当于迭代地应用一些超边扩散算子。通过每个步骤使用NN对这些算子进行参数化，可以将超图扩散展开成为HNN。

3.1 超图扩散中的新兴等变性

作者从讨论方程式1的传统求解器开始。如果f和g都是可微的，一个直接的优化方法是采用梯度下降。每次迭代的节点更新可以表示如下：

其中表示相对于的梯度，对于。我们使用上标t来表示当前迭代的编号，是初始特征，η被称为步长。

对于一般的f和g，我们可以采用ADMM：对于每个，我们引入一个辅助变量。我们初始化和。然后，迭代

其中是近端算子。在f、g的闭合凸假设下，迭代具有收敛保证。然而，作者的模型不依赖于收敛，因为作者的模型只是运行具有给定步数的迭代（即ED-HNN中的层数）。

近端算子proxψ(·)具有良好的性质，如命题1中所述，这使得即使对于f和g不可微的情况，也可以进行基于NN的近似。

命题1：如果是一个下半连续的凸函数，则proxψ(·)是1-李普希茨连续的。

节点侧操作、梯度∇f（·；xv）和近端梯度proxηf（·；xv）（·)相对容易建模，而超边的操作则比较复杂。作者将梯度∇g（·）：R||→R||和近端梯度proxηg（·）：R||→R||命名为超边缘扩散算子，因为它们总结了超边缘内的节点特征集合，并将聚合的信息单独发送到内部节点。

命题2：给定任何排列不变的超边潜在函数g(·)，超边扩散算子proxηg(·)和∇g(·)是排列等变的。

它说明了一个排列不变的超边潜在函数会导致一个操作符，应该以排列等变的方式处理不同的节点。

3.2 构建等变超边扩散算子

作者对等变扩散算子的设计是基于以下定理1。

定理1：是一个连续的排列等变函数，当且仅当它可以表示为，对于任意的，其中是两个连续函数，K0 ≥ K。

具体地，对于一个算子，它可能表示每个超边e的梯度∇g(·)或近端梯度proxηg(·)，作者可以将其参数化为：，对于，其中ˆρ、ˆφ是多层感知器（MLPs）。

直观地说，内部总和收集超边内的ˆφ编码节点特征，然后ρˆ进一步将收集与来自每个节点的特征相结合以执行单独的操作。

以上ψˆ的实现并不是简单的。一种简单的实现方法是为每个（v，e）对生成一个辅助节点，其中v ∈ V，e ∈ E，并像中采用的那样学习其表示。然而，这可能会大大增加模型复杂性。作者的实现是建立在超图的二部图表示（或星扩展上的，配合标准的消息传递NN（MPNN），可以通过GNN平台或稀疏矩阵乘法进行高效实现。

具体地，作者构建一个二部图。节点集¯V包含两部分V ∪ VE，其中V是原始节点集，而VE包含与原始超边e ∈ E对应的节点。然后，如果v ∈ e，则在v ∈ V和e ∈ E之间添加一条边。利用这种二部图表示，ED-HNN模型通过算法1实现。

算法1 ED-HNN

等变扩散算子ψˆ可以通过步骤1-3来构建。最后一步是更新节点特征以完成等式2中的前两项或ADMM更新等式。通过设计，初始属性xv和节点度数包括在内，以匹配扩散算法。由于扩散算子在迭代之间共享，ED-HNN跨层共享参数。

深度模型：对于深度模型，ED-HNN的优点在于，通过重复应用等变扩散算子，可以轻松地堆叠许多层（如算法1）。然而，直接使用传统的超图扩散算法在不同的层之间共享参数会变得更加困难，因为参数化超图扩散算法在很大程度上依赖于手工制作的切割成本函数。作者的实验结果将验证这些好处。

实验

4.1 基准数据集上的结果

实验设置：在这一小节中，作者评估了ED-HNN在九个真实世界的基准超图上的表现。作者关注半监督节点分类任务。这九个数据集包括共被引网络（Cora，Citeseer，Pubmed）、共作者网络（Cora-CA，DBLP-CA），沃尔玛，House，国会和参议院。由于最后四个超图不包含节点属性，作者从依赖标签的高斯分布中生成节点特征。

表1 数据集统计

正如作者在表1中展示的，这些数据集已经涵盖了足够多样的超图，从规模、结构和同质性/异质性方面。作者将作者的方法与这些基准上的表现最佳的模型进行比较，包括HGNN，HCHA，HNHN，HyperGCN，UniGCNII，AllDeepSets，AllSetTransformer，以及最近的扩散方法HyperND。所有基线模型的超参数均来自，作者固定了学习率、权重衰减和其他训练配方，与基线相同。其他模型特定的超参数通过网格搜索获得。作者将数据随机分成训练/验证/测试样本，使用了50%/25%/25%的拆分百分比。作者选择预测准确率作为评估指标。作者对每个模型进行了十次不同的训练/验证拆分，以获取标准差。表2显示了结果。

表2 预测精度（%）

作者的ED-HNN在所有数据集上一致优于所有比较的模型。作者观察到，在这些基准中表现最佳的基线模型是AllSetTransformer、AllDeepSets和UniGCNII。它们在节点和超边两侧建模不变集函数。UniGCNII还添加了初始和跳跃链接，这恰好展示了作者的设计原则（算法1中的第4步）。然而，它们的性能在不同数据集之间有很大的变化。例如，UniGCNII在引用网络上达到了令人满意的性能，但在沃尔玛数据集上的结果却不尽如人意。相比之下，作者的模型取得了稳定的优越结果，在参议院超过了所有基线模型12.9%，在沃尔玛上超过了UniGCNII 12.5%。作者将作者的实证重要性归功于精确等变函数表示的理论设计。与HyperND相比，即时是 SOTA 超图扩散算法，作者的ED-HNN在每个数据集上都达到了更好的性能。HyperND 可证明收敛到“收敛于均值”的超边潜力（见例1），这使得它在同质性网络上表现良好，而在异质性数据集上表现一般。就计算效率而言，作者报告了所有模型在最大超图沃尔玛上训练（100个epoch）和测试的挂钟时间，其中所有模型都使用相同的超参数，在左侧达到了报告的性能。作者的模型达到了与AllSet模型相当的效率，并且比UniGCNII快得多。因此，ED-HNN中等变计算的实现仍然高效。

4.2 合成异质性超图数据集的结果

实验设置：如前所述，ED-HNN有望在异质性超图上表现良好。作者通过使用具有受控异质性的合成数据集来评估这一点。作者使用上下文超图随机块模型生成数据。具体地，作者绘制两个类别，每个类别有2,500个节点，然后随机抽样1,000个超边。每个超边包含15个节点，其中αi个来自类别i。作者使用α = min {α1，α2}表示异质性水平。之后，作者使用标准差为1.0的标签相关高斯节点特征进行生成。作者测试同质性（α = 1, 2或CE同质性≥ 0.7）和异质性（α = 4 ∼ 7或CE同质性≤ 0.7）情况。作者将ED-HNN与HGNN、AllSet模型及其带有跳跃链接的变体进行比较。作者遵循以前的50%/25%/25%数据分割方法，并重复实验10次。表3显示了结果。

表3 具有控制异质性α的合成超图的预测精度（%）。

在同质性数据集上，所有模型都可以取得良好的结果，而ED-HNN稍微优于其他模型。一旦α超过3，即进入异质性区域，ED-HNN的优越性更为明显。跳跃链接技巧确实有所帮助，但直接构建等变性如ED-HNN所做的提供了更显著的改进。

4.3 深化超图神经网络的好处

作者还证明了通过使用扩散模型和参数绑定，ED-HNN可以从更深的架构中受益，而其他HNNs则不行。图2说明了不同模型与网络层数之间的性能。

图2 比较不同模型之间的深度成就

作者与HGNN、AllSet模型和UniGCNII进行比较。UniGCNII继承自，已知对抗过度平滑是有效的。结果显示，AllSet模型在深度方面存在困难。HGNN通过更轻量级的机制工作，对深度具有更好的容忍性。然而，它们都无法从深化中受益。相反，ED-HNN成功地利用更深的架构来实现更高的准确性。例如，在Pubmed和House上添加更多层会将ED-HNN的准确性提高约1%，而在参议院数据集上将ED-HNN从58.01%提升到64.79%。

4.4 在合成扩散数据集上的表现证明

作者将评估ED-HNN表达给定超图扩散的能力。作者使用Senate超图和合成节点特征生成了半合成扩散数据。该数据包含1,000对（H(0)，H(1)）。初始节点特征H(0)来自1维高斯分布的样本。为了获得H(1)，作者应用方程2中的梯度步骤。对于非微分情况，作者采用次梯度进行方便的计算。作者将节点势函数固定为f(hv; xv) = (hv − xv)2，并考虑三种不同复杂性的边势在示例1中：a) CE，b) TV（p=2）和c) LEC。目标是让单层模型V→E→V恢复H(1)。作者将ED-HNN与作者实现的基线（不变）进行比较，其在节点和超边两侧采用参数化的不变集函数，以及AllSet模型，其也采用不变集函数。作者保持所有模型的尺度几乎相同，以进行公平比较。

结果见图3。 图3 比较代表已知扩散的能力