ICML'20 通过图稀疏化来提升GNN的鲁棒性

最新推荐文章于 2023-04-14 16:25:54 发布

weixin_45519842

最新推荐文章于 2023-04-14 16:25:54 发布

阅读量447

点赞数

文章标签：网络算法 python 机器学习人工智能

本文链接：https://blog.csdn.net/weixin_45519842/article/details/118125153

版权

论文提出NeuralSparse，一种有监督的图稀疏化方法，通过去除与任务无关的边增强图神经网络（GNN）的泛化能力。该方法在保持下游任务预测准确性的同时优化图结构，适用于复杂图数据的处理。

摘要由CSDN通过智能技术生成

fig0

论文标题：Robust Graph Representation Learning via Neural Sparsification
作者：Cheng Zheng; Bo Zong; Wei Cheng; Dongjin Song; Jingchao Ni; Wenchao Yu; Haifeng Chen; Wei Wang
论文地址：https://songdj.github.io/publication/icml-20/icml-20.pdf
欢迎关注小编知乎：戴鸽

在真实场景下，图经常含有复杂的邻居信息，特征和邻居个数都很多。尽管图网络通过邻居聚合来高效的捕获图结构，但仍然一些任务无关的节点被加入，使得模型处于次优状态。因此，作者提出了NeuralSparse的方法。这是一种有监督的图稀疏技术，通过去除图中多余与任务无关边，提高模型泛化能力。

1. Introduction

两个节点的连接信息可能与目标下游任务无关(比如偶发的噪音连接，用户偶尔点击一个其并不喜欢的商品)。因此，直接聚合图上原始邻居可能引入了任务无关的信息，进而影响图模型本身的性能（ps：感觉这个可能映照了GCN-LPA，单纯的标签扩散可能都可以带来比较好的结果）。

如下图所示，假设有红蓝两类标签，按照特征来看可以用高斯分布变成两块独立分布。图(a)中展示了直接特征基本找不到明显分界，图(b)中的节点两两相连，随机采周围10个点当做邻居。此时，这种随机采的边信息就和标签信息没有什么太大关系。这时训练一个2层GCN后，可以观察到节点的分布差异更不明显了。而作者的希望的是得到比图(c) DropEdge更好的结果，使得相同标签的节点能够被边链接在一起，进而使得分类边界更明显。

fig1

在以往工作中，有一部分采用无监督方式来进行稀疏图学习，但是其可能无法在下游任务达到最优。另外一部分工作预定义下采样分布，这种方法可能无法适应后续任务，也就是还是和任务本身衔接不够紧密。另外仍然有监督学习的方法，但这些方法运算相对困难。

因此，作者提出的NeuralSparse模型是一种能够从下游任务获得反馈，进而抽取与任务强相关边的方法。NeuralSparse主要由2部分组成：稀疏网络和GNN。其中，稀疏网络采用了参数化的稀疏过程。在固定当前边的情况下去找下一个边。在训练过程中，网络由下游任务决定稀疏化策略。在测试过程中，数据通过稀疏化网络后再进行预测。对于GCN模块，输入是稀疏化后的图，并且切合其下游任务给出特征。在NeuralSparse这样的框架下，作者可以同时优化图结构并且获得稀疏解。最后希望如图(d)一样，其稀疏化过程比随机的边去除更加有效。