Jiaxuan You 图科学实验室Graph Science Lab 2022-05-11 00:00
封面
下载:
https://stacks.stanford.edu/file/druid:mz469rn9516/PhD_thesis_final_Jiaxuan-augmented.pdf
第一部分 通过深度学习从图中学习
第二章 图神经网络的设计空间
我们首先讨论如何设计合适的深度学习架构,特别是可以用于从图中学习的图神经网络(GNNs)。GNNs的快速发展带来了越来越多的新架构和新应用。然而,目前的研究主要集中在提出和评估GNNs的具体架构设计,如GCN [116]、GraphSAGE [78]或GAT [229],而不是研究由不同设计维度的笛卡尔积(例如层数或聚合函数的类型)组成的 GNNs 更一般的设计空间。例如层数或聚合函数的类型。此外,GNN设计通常专门用于单个任务,但很少有人努力理解如何快速找到最佳的GNN设计为一个新的任务或新的数据集。
在本章中,我们定义并系统研究了包含32种不同预测任务的315,000种不同设计的GNNs的架构设计空间。我们的方法主要有三个创新: (1)一个通用的GNN设计空间; (2)一个具有相似度度量的GNN任务空间,这样对于给定的新任务/数据集,我们可以快速识别/迁移性能最好的架构; (3)一种高效、有效的设计空间评估方法,可以从大量的模型-任务组合中提取见解。
本章的主要成果包括: (1)一套设计性能良好的GNNs的全面指南; (2)虽然不同任务的最佳GNN设计存在显著差异,但GNN任务空间允许在不同任务之间传递最佳设计; (3)利用我们的设计空间发现的模型达到了SOTA的性能。总之,我们的工作提供了一个原则性和可扩展性的方法,从研究具体任务的个体GNN设计,到系统地研究GNN设计空间和任务空间。
在本章中,我们还将介绍GraphGym,它是一个强大的平台,用于探索不同的GNN设计和任务。GraphGym具有模块化的GNN实现,标准化的GNN评估,以及可复制和可扩展的实验管理。GraphGym最初的发布是为了重现本章中进行的实验,现在它已经发展成为一个流行的开源软件。
这一章的材料已在[275]出版。
2.1 介绍
近年来,图神经网络的研究取得了长足的进展。值得注意的是,越来越多的GNN架构已经被开发出来,包括GCN [116]、GraphSAGE [78]和GAT [229]。这些架构随后被应用到越来越多的应用中,如社交网络[263,272]、化学[103,270]和生物[289]。然而,随着这种发展趋势,出现了一些问题,限制了GNNs的进一步发展。
GNN架构设计中的问题。在目前的GNN文献中,GNN模型被定义和被评估为具体的架构设计。例如,GCN、GraphSAGE、GIN、GAT等架构在现有的作品中被广泛采用[51,55,102,202,252,265,274]。然而,这些模型是GNN设计空间中的特定实例,由设计维度的交叉乘积组成。例如,一个GNN模型将GraphSAGE的聚合函数更改为一个求和,或者在GraphSAGE层之间添加跳过连接[84],不被称为GraphSAGE模型,但它在某些任务中实际性能可能优于GraphSAGE [231]。因此,只关注一个特定的GNN设计,而不是设计空间的做法限制了成功的GNN模型的发现。
GNN评估中的问题。GNN模型通常在有限且无多样性的任务集上进行评估,例如引文网络上的节点分类[115,116,229]。最近的工作使用附加任务来评估GNN模型[51,96]。然而,这些新任务丰富了GNN模型的评估,同时也不断出现来自各个领域的具有挑战性和全新的任务。例如,新的任务,如电路设计[282],SAT生成[273],数据插补[271],或子图匹配[264],都是最近用GNNs处理的。这种新颖的任务与现有的GNN基准任务并不相似,因此,如何为给定的新任务设计有效的GNN架构尚不清楚。考虑到GNN的巨大设计空间和新GNN任务的激增,这个问题尤其重要,因为为每个新任务重新探索整个设计空间的成本非常高。
GNN实现中的问题。目前缺乏一个支持对GNN设计空间进行广泛探索的平台,并对节点、边缘和图级任务进行统一实现,这是导致上述问题的主要因素。
当前的工作。在此,我们开发并系统地研究了在多种任务下GNNs的一般设计空间(http://snap.stanford.edu/gnn-design)。为了解决上述问题,我们在研究中突出了三个核心组成部分,即GNN设计空间、GNN任务空间和设计空间评估: (1)GNN设计空间涵盖了研究人员在GNN模型开发过程中经常遇到的重要架构设计方面。(2)具有任务相似性度量的GNN任务空间使我们能够识别新的任务,并有效地在相似的任务之间传递GNN架构设计。(3)高效、有效的设计空间评估可以从大量的模型-任务组合中提取见解。最后,我们还开发了GraphGym(https://github.com/snap-stanford/graphgym),这是一个探索不同GNN设计和任务的平台,具有模块化的GNN实现、标准化的GNN评估以及可复制和可扩展的实验管理。
GNN设计空间。我们定义了一个通用的GNNs设计空间,考虑了层内设计、层间设计和学习配置。设计空间由12个设计维度组成,产生315000种可能的设计。因此,我们的目的不是提出最广泛的GNN设计空间,而是展示关注设计空间可以如何加强GNN研究。我们强调,随着新的设计维度在SOTA的模型中出现,设计空间可以被扩展。我们的整体框架很容易扩展到新的设计维度。此外,它可以用于快速找到一个良好的设计选择组合为特定的新任务。
GNN任务空间。我们提出了一个任务相似度指标来描述不同任务之间的关系。该指标允许我们为全新的任务/数据集快速识别有前途的GNN设计。具体来说,两个任务之间的相似度是通过对两个任务应用一组固定的GNN架构,然后测量这两个GNN性能的Kendall rank correlation [1]来计算的。我们考虑了由12个综合节点分类任务、8个综合图分类任务、6个真实节点分类任务和6个图分类任务组成的32个任务。
设计空间的评估。我们的目标是从定义的GNN设计空间获得见解,例如“ 批处理规范化对GNN通常有用吗?” 然而,定义的设计和任务空间导致超过10M的可能组合,禁止完整的网格搜索。因此,我们开发了一个控制随机搜索评估程序,以有效地理解每个设计维度的权衡。
基于这些创新,我们的工作提供了以下关键结果: (1)一套设计性能良好的gnns的全面指南(第2.7.3节)。(2)尽管针对不同任务/数据集的最佳GNN设计存在显著差异,但定义的GNN任务空间允许跨任务传递最佳设计(章节2.7.4)。这节省了对高度相似的GNN任务的冗余算法开发,同时也能够识别新的GNN任务,从而激发新的GNN设计。(3)从我们的设计空间中发现的模型在Open Graph Benchmark [96]中的新任务上实现了最先进的性能(章节2.7.5)。
总之,我们的工作表明了从研究具体任务的具体GNN设计到研究GNN设计空间的转变,这为GNN架构设计提供了令人兴奋的机会。我们的工作也有助于可复制的GNN研究,其中GNN模型和任务被精确描述,然后使用标准化协议进行评估。使用被提到的GraphGym平台复现实验和公平比较模型只需要最小的努力。
2.2 相关工作
图架构搜索。架构搜索技术已经应用于GNNs [61,288]。但是,这些工作只关注GNN各层的设计,而不关注一般的GNN设计空间,并且只评估少数节点分类任务的设计。
图2.1:建议的GNN设计和任务空间概述。(a)一个GNN设计空间由12个设计维度组成,包括层内设计、层间设计和学习配置。(b)我们将固定 “anchor模型” 应用于不同的任务/数据集,然后使用其表现的Kendall rank correlation来量化不同任务之间的相似性。通过这种方法,我们构建了具有适当相似性度量的GNN任务空间。©任务A、任务B、任务c的GNN设计最好,注意到相似度高的任务具有相似的设计,说明我们的GNN任务空间的有效性。
GNN模型的评估。许多工作讨论了如何在GNN模型之间进行公平比较的方法[51,55,202]。然而,这些模型只考虑了一些特定的GNN设计(例如,GCN、GAT、GraphSAGE),而我们的方法广泛地探索了GNN的一般设计空间。
其他图学习模型。我们主要关注消息传递GNNs,因为它们的性能和在各种GNN任务上的高效实现已经得到了验证。图学习模型也有其他的设计[157,161,162,274],但它们的设计空间与GNNs不同,模块化程度较低。
可迁移的架构搜索。跨任务迁移架构搜索结果的思想已经在计算机视觉任务环境下进行了研究[269,291]。Meta级架构设计在[175,200,244,280]中也进行了研究,假设不同的任务遵循相同的分布(例如,ImageNet数据集[46]的变体)。这些方法通常假设一个单一的神经结构可以很好地完成所有任务,这很适合于多样性相对较低的任务。然而,由于图学习任务的多样性,这种假设不再成立。
2.3 预备知识
在这里,我们概述了本文中使用的术语。我们使用术语设计来表示具体的GNN实例化,例如5层GraphSAGE。每一个设计都可以有多个设计维度,如层数L={2,4,6,8}或聚合函数的类型AGG = {MAX, MEAN, SUM},设计选择是设计维度中的实际选择值,例如L = 2。设计空间由设计尺寸的笛卡尔积组成。例如,设计尺寸L和AGG的设计空间有4 * 3 = 12种可能的设计。GNN可以应用于各种任务,如Cora [197]数据集上的节点分类,或ENZYMES数据集[111]上的图分类,构成任务空间。将GNN设计应用于任务称为实验。实验空间涵盖了所有设计和任务的组合。
2.4 GNNs的设计空间
接下来,我们提出了GNN的一般设计空间,包括GNN架构设计的三个关键方面:层内设计、层间设计和学习配置。我们在定义设计空间时使用以下原则: (1)涵盖研究人员在模型开发过程中遇到的最重要的设计维度; (2)包含尽可能少的设计尺寸(例如,我们删除特定于模型的设计尺寸,如注意力模块的尺寸); (3)在回顾大量文献和我们自己的经验的基础上,考虑在每个设计维度中适当的选择范围。我们的目的不是提出最广泛的设计空间,而是展示关注设计空间如何有助于GNN研究。
Intra-layer设计。GNN由几个消息传递层组成,其中每个层可以具有不同的设计维度。如图2.1(a)所示,所采用的GNN层有一个线性层,接下来是一系列模块: (1)批归一化BN() [99]; (2) dropout DROPOUT() [212]; (3)非线性激活函数ACT(),其中我们考虑RELU() [163], PRELU() [83]和SWISH() [177]; (4)聚合函数AGG()。形式上,第k层GNN可定义为:
式中h(k)v是节点v的第k层嵌入,W(k), b^(k)为可训练权值,N(v)为v的局部邻域。我们考虑以下设计尺寸范围
Inter-layer设计。定义了GNN层之后,设计的另一个层次是如何将这些层组织成神经网络。在GNN文献中,通常的做法是将多个GNN层直接叠加[116,229]。一些GNN模型[78,133,253]使用了跳过连接,但还没有结合其他设计维度进行系统探索。在这里,我们研究了两种跳过连接的选择:剩余连接skip-sum[84]和将所有先前层中的嵌入连接起来的密集连接skip-cat[97]。我们进一步探索在GNN消息传递之前/之后添加多层感知器(MLP)层。所有这些设计方案在某些情况下都能提高性能[266,270]。总之,我们考虑了这些设计维度
Training的配置。优化算法是影响GNN性能的重要因素。在GNN的文献中,包括批量大小、学习速率、优化器类型和训练时间在内的训练配置经常变化很大。这里我们考虑GNN训练的以下设计维度
2.5 GNNs的任务空间
我们的一个重要见解是,GNN的设计空间应该与任务空间结合起来研究,因为不同的任务可能有非常不同的最佳的GNN设计(图2.1©)。在这里,明确地创建任务空间是具有挑战性的,因为研究人员可以将GNNs应用于不断增加的不同任务和数据集。因此,我们开发了测量和量化GNN任务空间的技术,而不是将自己限制在一个固定的GNN任务分类中。为了验证我们的方法,我们收集了32个不同的GNN任务作为示例,但我们的方法是通用的,可以应用于任何其他新的GNN任务。
2.5.1定量任务相似度度量
现有任务分类中的问题。GNN任务已经根据数据集域(如生物或社会网络)或预测类型(如节点或图分类)进行了分类。然而,这些分类并不一定意味着GNN设计在任务/数据集之间的可迁移性。例如,两个任务可能都属于社交网络上的节点分类,但不同类型的节点特征可能导致不同的GNN设计表现最佳。
提出任务相似性度量。我们建议定量测量任务之间的相似性,这对于(1)在相似的任务之间传递最佳的GNN设计或设计原则至关重要,(2)识别新的GNN任务,不同于任何现有的任务,这可以激发新的GNN设计。提出的任务相似度指标包括两个部分: (1)anchor模型的选择和 (2)衡量anchor模型性能的秩距离。
Anchor模型的选择。我们的目标是找到最多样化的GNN设计集,可以揭示给定GNN任务的不同方面。具体来说,我们首先从设计空间中抽取D个随机GNN设计。然后,我们将这些设计应用于一组固定的GNN任务,并记录每个GNN任务的平均性能。对D设计进行排序,并均匀地分成M组,在每组中选择性能中值的模型。这些选定的GNN设计共同构成了anchor模型集,这些anchor模型被固定用于进一步的所有任务相似度计算。
测量任务的相似度。给定两个不同的任务,我们首先将所有M anchor模型应用于这些任务,并记录它们的性能。然后我们对每个任务的所有M anchor模型的性能进行排序。最后,我们使用Kendall rank correlation [1]计算M个anchor模型之间的相似度得分,这被报告为任务相似度。当考虑T个任务时,计算所有任务对的秩距离。总的来说,比较T GNN任务的计算成本是训练和评估M*T GNN模型。我们证明M = 12 anchor模型足以近似计算出设计空间中所有设计的任务相似度(图2.5(b))。
我们的方法是完全通用的,因为它可以应用于任何一组GNN任务。例如,在二元分类中,可以使用ROC AUC评分对模型进行排序,而在回归任务中可以使用均方误差。我们的任务相似性度量甚至可以推广到非预测性任务,例如,分子生成[270],生成的分子图的药物相似性评分可以用于对不同的GNN模型进行排序。
2.5.2 收集不同的GNN任务
为了正确评估提出的设计空间和提出的任务相似性度量,我们收集了各种32个合成的和真实的GNN任务/数据集。我们的总体原则是选择中等、多样、现实的任务,以便高效地进行GNN设计空间的探索。
合成的任务。我们的目标是生成具有不同图结构属性、特征和标签的合成任务。我们使用了现实世界中普遍存在的两组图[237]和无标度图[90],这两组图具有不同的结构特性,由一组图统计数据进行测量。我们考虑了局部图统计量平均聚类系数C和全局图统计量平均路径长度L。我们生成图以覆盖范围 C = [0:3; 0:6] 和 L = [1:8; 3:0]。我们在这两个范围内创建一个8x8的网格,并不断生成每种类型的随机图,直到网格中的每个bin有4个图。总之,我们有256个small-world图和256个无标度图。
我们考虑四种类型的节点特征: (1)常数标量,(2)one-hot向量,(3)节点聚类系数和(4)节点PageRank评分[167]。我们考虑节点级标签,包括节点聚类系数和节点PageRank评分,以及图级标签,如平均路径长度。我们排除了特征和标签相同的组合。我们将这些连续的标签分成10个箱子,并进行10路分类。我们总共有12个节点分类任务和8个图分类任务。在图2.5(a)中,所有任务都以轴的形式列出。
真实世界的任务。我们包括了来自[197,202]的6个节点分类基准,以及来自[111]的6个图分类任务。在图2.5(a)中,任务也被列为轴。
2.6 GNN设计空间评估
定义的设计空间和任务空间导致超过10M的可能组合,禁止全网格搜索。为了克服这一问题,我们提出了一种高效的设计空间评估技术,该技术允许从大量的模型-任务组合中提取见解。如图2.2所示,我们的方法基于一种新的可控随机搜索技术。这里控制了所有模型的计算预算,以确保公平的比较。
可控随机搜索。图2.2说明了我们的方法。假设我们想要研究添加BatchNorm (BN)对GNNs是否有帮助。我们首先从10M个可能的模型-任务组合中抽取S个随机实验,所有实验的BN均为TRUE。我们设置S = 96,这样每个任务平均有3次命中。然后我们改变这96个设置,使BN = FALSE,同时控制所有其他维度(图2.2(a))。我们根据性能对 96 个设置中每个设置中的 BN = [TRUE,FALSE] 的设计选择进行排名(图2.2(b))。为了提高排名结果的稳健性,我们考虑平局的情况,如果性能差异在epsilon = 0.02。最后,我们收集96个设置的排名,并分析排名的分布(图2.2©)。在我们的实验中,BN = TRUE的平均秩为1.15,而BN = FALSE的平均秩为1.44,说明在GNNs中加入BatchNorm通常是有帮助的。这种控制随机搜索技术可以很容易地推广到具有多种设计选择的设计维度。与完整网格搜索相比,我们的方法减少了1000多倍的实验次数:在10个GPU上,在32个任务中对所有12个设计选择进行完整评估只需要5个小时。
图2.2:GNN设计空间建议评价概述。(a)采用控制随机搜索技术研究BatchNorm的作用。(b)我们根据BN = TRUE和FALSE在每个设置中的表现对其设计选择进行排序,如果表现接近,则得出平局。©从排名的分布可以获得对不同设计选择的见解。
控制计算预算。为了确保公平的比较,在我们的评估中,我们还控制了所有实验中gnn的可训练参数的数量。具体来说,我们使用一个包含1个预处理层、3个消息传递层、1个后处理层和256个隐藏维度的GNN来设置计算预算。对于实验中的所有其他GNN设计,隐藏维数都进行了调整,以匹配该计算预算。
2.7 实验
2.7.1 GraphGym: GNN设计平台
我们设计了GraphGym,一个探索GNN设计的新平台。我们相信GraphGym可以极大地促进GNNs的研究。其要点总结如下。
模块化GNN实现。GraphGym的实现紧跟一般GNN设计空间的提议。此外,用户可以轻松地将新的设计维度导入GraphGym,例如GNN层的新类型或跨层的新连接模式。
标准化GNN评估。GraphGym为GNN模型提供了一个标准化的评估管道。用户可以选择如何分割数据集(例如,自定义分割或随机分割,训练/验证分割或训练/验证/测试分割),使用什么指标(例如,准确度ROC AUC, F1分数),以及如何报告性能(例如,最终epoch或最佳验证epoch)。
可复制和可扩展的实验管理。在GraphGym中,任何实验都是由配置文件精确描述的,因此可以可靠地再现结果。因此,(1)共享和比较新的GNN模型只需最小的努力; (2)便于跟踪研究领域的算法进展; (3)社会外的研究人员可以轻松熟悉先进的GNN设计。此外,GraphGym完全支持并行启动、收集和分析数以千计的实验。本文中的分析可以通过运行几行代码自动生成。
2.7.2 实验设置
我们使用所提出的评估技术(章节2.6),在GNN任务空间(章节2.5)之上评估所提出的GNN设计空间(章节2.4)。对于第2.7.3节和2.7.4节中的所有实验,我们使用一致的设置,其中三个随机80%/20%的train/val分割的结果是平均的,并报告了最后阶段的验证性能。多路分类采用精度,二值分类采用ROC AUC。对于图分类任务,分割总是归纳的(在看不见的图上测试);对于多图数据集上的节点分类任务,分裂可以是归纳的,也可以是转导的(在训练图上的不可见节点上测试),其中我们选择转导设置来多样化任务。
2.7.3 GNN设计空间评估结果
通过排名分析进行评估。我们将第2.6节的评估技术应用到拟议设计空间的12个设计维度中,每个设计维度都采样96个实验装置。结果总结在图2.3中,在每个子图中,每个设计选择的排名是通过bar图和violin图聚合在所有96个设置上的。bar图显示了所有96个设置的平均排名(越低越好)。平均排名为1表明在所有96个采样设置中,该设计选择总是在该设计维度的其他选择中获得最佳性能。violin图显示了所有96个设置中每个设计选择的排名的平滑分布。考虑到并列第一的排名普遍存在,violin图对于理解设计选择没有排名第一的频率非常有帮助。
图2.3:GNN设计选择在所有12个设计维度中的排名分析。低越好。如果设计的准确性/ ROC AUC差异在epsilon= 0:02内,则达到平局。
关于层内设计的研究结果。图2.3显示了关于层内GNN设计的几个有趣发现。(1)添加BN一般是有帮助的。这一结果证实了先前在一般神经结构方面的发现,即BN有助于神经网络的训练[99,188]。(2)对于GNNs来说,通过剔除节点特征尺寸作为正则化手段通常是无效的。我们认为这是因为GNNs已经包含了邻域聚合,因此对噪声和异常值具有鲁棒性。(3) PRELU明显是激活的选择。我们强调这一发现的新颖性,因为PRELU很少用于现有的GNN设计。(4) SUM聚合在理论上最具表达性[252],这与我们的研究结果一致。事实上,我们提供了第一个全面和严格的评估,以验证SUM确实在经验上是成功的。
层间设计研究结果。图2.3进一步显示了层间设计的结果。(1)对于消息传递层的最佳数量并没有明确的结论。选择2和8个消息传递层,它们在非常不同的任务中表现最佳。(2)添加跳过连接通常是有利的,并且连接版本(skip-cat)的性能略好于skip-sum。(3)与(1)相似,对于预处理层数和后处理层数的结论也是任务具体的。
关于学习配置的发现。图2.3还显示了学习配置的结果。(1)批大小为32是比较安全的选择,批大小排到第3位的概率质量明显较低。(2)学习率为0.01也是有利的,也是因为它排名第3的概率质量明显较低。(3)虽然已知调优后的SGD具有更好的性能,但ADAM总体上优于未调优的SGD[243]。(4)培训时间越长,绩效越好。
总的来说,提出的评估框架为严格验证GNN设计尺寸提供了一个坚实的工具。通过对10M个可能的模型-任务组合进行控制随机搜索(每个设计维度96个实验),我们的方法提供了一个更有说服力的GNN设计指南,相比于通常只评估一个固定的GNN设计上的新设计维度(例如,5层、64-dim、等等)在一些图形预测任务(例如,Cora或ENZYMES)。此外,我们验证了我们的研究结果不存在多重假设检验的问题:我们发现,在单因素ANOVA [215]和Bonferroni校正240下,12个设计维度中有7个对GNN性能有显著影响。
2.7.4 GNN任务空间有效性的结果
压缩GNN设计空间。根据我们在2.7.3节中发现的指导方针,我们修正了几个设计维度以压缩GNN设计空间。压缩的设计空间可以实现完整的网格搜索,这有助于:(1)验证所提出的任务空间是否能够在GNN任务之间传递最佳的GNN设计;(2)将我们的方法应用于更大规模的数据集,以验证它是否提供了经验好处(第2.7.5节)。具体地说,我们修复了设计选择的子集,如下所示。
理想的设计选择在不同的任务中有很大的不同。按照第2.7.3节的方法,我们使用条形图来演示在不同的任务/数据集之间,首选的GNN设计是如何显著不同的。如图2.4所示,结果令人惊讶:聚合层、消息传递层、层连接性和后处理层的理想设计选择在不同任务之间有很大差异。
图2.4:不同GNN任务中GNN设计选择的排名分析低越好。更好的设计选择在GNN任务中有很大的不同。
通过提出的任务相似度来构建任务空间。为了进一步理解什么时候更好的设计可以跨任务传递,我们遵循第2.5节中的技术,为本文考虑的所有32个任务构建一个GNN任务空间。图2.5(a)显示了使用提议的度量计算出的任务相似性。关键发现是,任务可以大致分为两组:(1)真实图上的节点分类,(2)综合图上的节点分类和所有图分类任务。我们的理解是(1)中的任务是节点级任务,节点特征丰富,因此首选能更好传播特征信息的GNN设计;相比之下,(2)中的任务需要图结构信息,因此需要不同的GNN设计。
最好的GNN设计可以转移到相似度高的任务上。我们将一个任务中最优的模型转移到另一个任务中,然后计算该模型在新任务中的性能排名。在图2.5©中,我们观察到任务迁移后的性能排名与两个任务的相似性之间的相关度高达0.8 Pearson,这意味着所提出的任务相似性度量可以表明GNN设计向新任务迁移的良好程度。注意,这一发现意味着在新任务中找到一个好的模型可以非常高效:计算任务相似性只需要运行12个模型,而不是在整个设计空间(315,000个设计)上进行网格搜索。
比较最佳设计与标准GNN设计。为了进一步证明我们设计空间的有效性,我们进一步将压缩设计空间中的最佳设计与标准GNN设计进行比较。我们实现了带有消息传递层{4,6,8}的标准GCNs,同时使用我们在表1中发现的所有其他最优超参数。我们设计空间的最佳模型在32个任务中有24个优于GCN的最佳模型。我们强调,本文的目标不是追求SOTA性能,而是提出一种GNN设计的系统方法。
图2.5:GNN任务空间有效性的结果。(a)使用12个锚模型计算的所有任务对之间的提议相似度,值越大表示相似度越高。我们收集所有的任务对,并显示:(b)使用12锚模型计算的任务相似度与使用所有96个模型之间的相关性;©任务相似度与最佳设计在一项任务转移到另一项任务后的绩效排名之间的相关性;(d) ogbg-molhiv与任务相似度之间的相关性与最佳模型转移到ogbg-molhiv后在同一任务中的表现排名的相关性;(e)在与ogbg-molhiv高度相似的任务中发现的最佳设计可以达到最先进的性能。
2.7.5 案例研究:应用于具有挑战性的新任务
背景。我们对GNN设计空间(第2.4节)和任务空间(第2.5节)的见解可以导致具有挑战性的新任务上成功的GNN设计。回顾一下GNN的设计空间,我们得到了一个有用的指南(第2.7.3节),将设计空间从315,000个设计压缩到仅仅96个设计;从提出的GNN任务空间中,我们构建了一个任务相似度度量,其中顶级GNN设计可以转移到具有高相似度度量的任务(章节2.7.4)。
设置。具体来说,我们使用ogbg-molhiv数据集[96],这似乎与我们研究的32个任务非常不同:它更大(41K图vs最大2K图),高度不平衡(1.4%的阳性标签),需要分布外概化(按分子结构拆分vs随机拆分)。我们使用数据集提供的train/val/test分割,并报告最后阶段的测试准确性。我们匹配当前最先进的(SOTA)模型的模型复杂性(ROC AUC 0.771)[96],由于计算成本高,我们遵循他们的训练100个epoch的实践;除了这些,我们遵循了压缩GNN设计空间中的所有设计选择(第2.7.3节)。我们考察:(1)压缩设计空间中的最佳模型是否能实现SOTA性能,(2)任务相似度是否能在不进行网格搜索的情况下指导顶部设计的转移。
结果。关于(1),在图2.5(e)最后一列中,我们表明,在我们的压缩设计空间中发现的最佳GNN显著优于现有的SOTA (ROC AUC 0.792 vs . 0.771)。(2),我们首先在图2.5 (d)验证,提出了相似的任务仍然是一个合理的指标最高GNN如何设计可以转移的任务,和32的任务我们调查,我们选择任务a和B, ogbg-molhiv分别0.47和-0.61相似。我们在图2.5(e)中显示,尽管任务B的最佳设计显著优于现有的SOTA(准确率0.968 vs 0.930),但在转移到ogbg-molhiv后,它的表现很差(AUC 0.736)。相反,由于任务A具有很高的测量相似性,在任务A中直接使用最佳设计已经在ogbg-molhiv上显著优于SOTA (ROC AUC 0.785 vs . 0.771)。
2.8 讨论
在本章中,我们提供了一个原则性的方法来建立一个通用的GNN设计空间和一个具有定量相似度的GNN任务空间。我们的大量实验结果表明,通过易于处理的设计空间评估技术来研究这两个空间,可以导致对GNN模型和任务的令人兴奋的新理解,节省算法开发成本和经验性能增益。总体而言,我们的工作建议从研究单个GNN设计和任务转向系统地研究GNN设计空间和GNN任务空间。此外,我们讨论我们的工作的影响如下
对GNN研究的影响。我们的工作为GNN研究领域带来了许多有价值的心态。例如,在比较不同模型时,我们完全采用了控制模型复杂性的原则,这在大多数GNN的文章中还没有采用。我们强调,最好的GNN设计可以在不同任务之间有很大的差异(最先进的GNN模型在一个任务上可能在其他任务上表现较差);因此,我们建议评估不同任务的模型。我们的目标不是批评现有GNN架构的弱点,而是构建一个框架,帮助研究人员在开发适合不同应用的新模型时理解GNN的设计选择。我们的方法作为工具来展示小说的创新GNN模型(例如,在什么样的设计空间/任务空间,提出算法的进步是有益的),或一本小说GNN任务(例如,显示任务不是类似于任何现有的任务因此呼吁算法发展的新挑战)。
对机器学习研究的影响。我们的方法实际上适用于一般的机器学习模型设计。具体来说,我们希望所提出的控制随机搜索技术可以帮助公平评估新的算法的进展。为了显示某种算法改进是否有用,重要的是对随机的模型-任务组合进行抽样,然后研究算法改进在什么情况下确实提高了性能。此外,提出的任务相似度指标可以用于理解一般机器学习任务之间的相似性,如MNIST和CIFAR-10的分类。我们基于排名的相似性度量是完全通用的,只要不同的设计可以根据它们的表现进行排名。
对其他研究领域的影响。我们的框架为其他学科的专家提供了比以往任何时候都更容易的支持,以通过GNNs解决他们的问题。领域专家只需要提供正确格式化的特定于领域的数据集,然后推荐的GNN设计将被自动挑选并应用到数据集。具体而言,将锚定GNN模型应用于新任务,以衡量其与已知GNN任务的相似性,并保存相应的最佳GNN设计;然后,在与新任务相似度高的任务中应用top GNN设计。如果允许计算资源,也可以很容易地对新任务进行设计空间的完全随机搜索。我们认为,该管道可以显著降低GNN模型应用的障碍,从而极大地促进GNNs在其他研究领域的应用。
目录