训练时间和参数量百倍降低，直接使用标签进行预测，性能竟超GNN

最新推荐文章于 2022-09-07 00:52:37 发布

视学算法

最新推荐文章于 2022-09-07 00:52:37 发布

阅读量330

点赞数

文章标签：神经网络大数据算法 python 机器学习

原文链接：https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f9156c0e4b00f132869e98c?type=2

版权

选自arXiv

作者：Qian Huang等

机器之心编译

机器之心编辑部

将传统标签传播方法与简单模型相结合即在某些数据集上超过了当前最优 GNN 的性能，这是康奈尔大学与 Facebook 联合提出的一项研究。这种新方法不仅能媲美当前 SOTA GNN 的性能，而且参数量也少得多，运行时更是快了几个数量级。

图神经网络（GNN）是图学习方面的主要技术。但是我们对 GNN 成功的奥秘以及它们对于优秀性能是否必然知之甚少。近日，来自康奈尔大学和 Facebook 的一项研究提出了一种新方法，在很多标准直推式节点分类（transductive node classification）基准上，该方法超过或媲美当前最优 GNN 的性能。

这一方法将忽略图结构的浅层模型与两项简单的后处理步骤相结合，后处理步利用标签结构中的关联性：(i) 「误差关联」：在训练数据中传播残差以纠正测试数据中的误差；(ii) 「预测关联」：平滑测试数据上的预测结果。研究人员将这一步骤称作 Correct and Smooth (C&S)，后处理步骤通过对早期基于图的半监督学习方法中的标准标签传播（LP）技术进行简单修正来实现。

该方法在多个基准上超过或接近当前最优 GNN 的性能，而其参数量比后者小得多，运行时也快了几个数量级。例如，该方法在 OGB-Products 的性能超过 SOTA GNN，而其参数量是后者的 1/137，训练时间是后者的 1/100。该方法的性能表明，直接将标签信息纳入学习算法可以轻松实现显著的性能提升。这一方法还可以融入到大型 GNN 模型中。

论文地址：https://arxiv.org/pdf/2010.13993.pdf
GitHub 地址：https://github.com/CUAI/CorrectAndSmooth

图神经网络的缺陷

继神经网络在计算机视觉和自然语言处理领域的巨大成功之后，图神经网络被用来进行关系数据的预测。这些模型取得了很大进展，如 Open Graph Benchmark。新型 GNN 架构的许多设计思想是从语言模型（如注意力）或视觉模型（如深度卷积神经网络）中的新架构改编而来。但是，随着这些模型越来越复杂，理解其性能收益成为重要挑战，并且将这些模型扩展到大型数据集的难度有所增加。

新方法：标签信息 + 简单模型

而这篇论文研究了结合更简单的模型能够达到怎样的性能，并重点了解在图学习特别是在直推式节点分类中，有哪些提高性能的机会。

研究者提出了一个简单的 pipeline（参见图 1），它包含 3 个主要部分：

基础预测（base prediction），使用忽略图结构（如 MLP 或线性模型）的节点特征完成；
校正步骤，这一步将训练数据的不确定性传播到整个图上，以校正基础预测；
平滑图预测结果。

步骤 2 和 3 只是后处理步骤，它们使用经典方法进行基于图的半监督学习，即标签传播。

通过对这些经典 idea 进行改进和新的部署，该研究在多个节点分类任务上实现了 SOTA 性能，超过大型 GNN 模型。在该框架中，图结构不用于学习参数，而是用作后处理机制。这种简单性使模型参数和训练时间减少了几个数量级，并且可以轻松扩展到大型图中。此外，该方法还可以与 SOTA GNN 结合，实现一定程度的性能提升。

该方法性能提升的主要来源是直接使用标签进行预测。这并不是一个新想法，但很少用于 GNN。该研究发现，即使是简单的标签传播（忽略特征）也能在许多基准测试中取得出色的效果。这为结合以下两种预测能力来源提供了动力：一个来源于节点特征（忽略图结构），另一个来源于在预测中直接使用已知标签。

具体而言，该方法首先使用一个基于节点特征的基础预测器，它不依赖于任何图学习。然后，执行两种类型的标签传播 (LP)：一种通过建模相关误差来校正基础预测；一种用来平滑最终预测。研究人员将这两种方法的结合称作 Correct and Smooth（C&S，参见图 1）。LP 只是后处理步骤，该 pipeline 并非端到端训练。此外，图只在后处理步骤中使用，在前处理步骤中用于增强特征，但不用于基础预测。这使得该方法相比标准 GNN 模型训练更快速，且具备可扩展性。

该研究还利用两种 LP 和节点特征的优势，将这些互补信号结合起来可以获得优秀的预测结果。

实验

为了验证该方法的有效性，研究者使用了 Arxiv、Products、Cora、Citeseer、Pubmed、Email、Rice31、US County 和 wikiCS 九个数据集。

节点分类的初步结果

下表 2 给出了相关实验结果，研究者得出了以下几点重要发现。首先，利用本文提出的 C&S 模型，LP 后处理步骤会带来巨大增益（如在 Products 数据集上，MLP 的基础预测准确率由 63% 提升至 84%）；其次，具有 C&S 框架的 Plain Linear 模型的性能在很多情况下优于 plain GCN，并且无可学习参数的方法 LP 的性能通常也媲美于 GCN。这些结果表明，通过简单使用特征在图中直接合并关联往往是更好的做法；最后，C&S 模型变体在 Products、Cora、Email、Rice31 和 US County 等 5 个数据集上的性能通常显著优于 SOTA。在其他数据集上，表现最佳的 C&S 模型与 SOTA 性能之间没有太大的差距。