摘要
诸如社交网络,功能性大脑网络,基因调控网络,通信网络之类的图结构化数据带来了将深度学习技术推广到图域的兴趣。 在本文中,我们有兴趣为可变长度的图设计神经网络,以解决学习问题,例如顶点分类,图分类,图回归和图生成任务。 现有的大多数工作都集中在递归神经网络(RNN)上,以学习图的有意义的表示形式,最近还引入了新的卷积神经网络(ConvNets)。 在这项工作中,我们要严格比较这两个基本体系结构家族,以解决图学习任务。 我们回顾了现有的图RNN和ConvNet体系结构,并建议将LSTM和ConvNet自然扩展到具有任意大小的图。 然后,我们针对两个基本图问题(即子图匹配和图聚类)设计了一组分析控制的实验,以测试不同的体系结构。 数值结果表明,所提出的图形ConvNets比图形RNN精度高3-17%,速度提高1.5-4倍。 Graph ConvNets的准确度也比变式(非学习)技术高36%。
最后,最有效的图形ConvNet体系结构使用门控边缘和残差。 残差对于学习多层体系结构起着至关重要的作用,因为它们可提供10%的性能提升。
1引言
LeCun等人的卷积神经网络。 (1998)和Hochreiter&Schmidhuber(1997)的递归神经网络是深度学习体系结构,已成功应用于计算机视觉(CV)和自然语言处理(NLP)任务。 这种模型要求数据域是规则的,例如CV的2D或3D欧几里得网格和NLP的1D线。 除CV和NLP之外,数据通常不位于常规域中,而位于异构图形域中。 社交网络上的用户,大脑结构上的功能时间序列,监管网络上的基因DNA,电信网络上的IP数据包就是激发开发可应用于图形的新神经网络技术的一些示例。 这些技术的一种可能分类是考虑具有固定长度图和可变长度图的神经网络体系结构。
在具有固定长度的图的情况下,Chung(1997)根据谱图理论开发了一个卷积神经网络。 布鲁纳等人的早期工作。 (2013年)提出用图拉普拉斯算子在谱域中制定图卷积运算,类似于哈蒙德等人提出的欧几里德傅里叶变换。 (2011)。 Henaff等人扩展了这项工作。 (2015年)平滑频谱过滤器的空间定位。 Defferrard等。
Levie等人(2016)使用Chebyshev多项式来实现稀疏图的线性复杂度。
(2017)应用Cayley多项式专注于窄带频率,Monti等人(2017)。 (2017b)处理了多个(固定)图。 最后,Kipf&Welling(2017)使用1跳滤波器简化了频谱卷积架构,以解决半监督聚类任务。 有关相关工作,另请参阅Bronstein等人的工作。 (2017b),Bronstein等。 (2017a)及其中的参考文献。
对于长度可变的图形,Gori等人提出了一种通用公式。 (2005); Scarselli等。 (2009年)基于递归神经网络。 作者定义了一个多层感知器香草RNN。 Li等人扩展了这项工作。 (2016)使用GRU架构和隐藏状态捕获图表本地附近的平均信息。 Sukhbaatar等人的工作。 (2016)引入了香草图ConvNet,并使用这种新架构来解决学习交流任务。 Marcheggiani&Titov(2017)在图ConvNets中引入了一种边缘门控机制,用于语义角色标记。 最后,Bruna&Li(2017)设计了一个网络来学习图拉普拉斯算子的功效的非线性逼近,并将其应用于无监督图聚类问题。 Duvenaud等人介绍了其他药物设计,计算机图形学和视觉作品。 (2015); Boscaini等。 (2016); Monti等。 (2017a)。
在这项工作中,我们在具有任意长度的图的背景下研究了神经网络的两个基本类别,即RNN和ConvNet。 第2节回顾了现有技术。 第3节介绍了新的图NN模型。 第4节报告了数值实验。
2具有任意长度的图的神经网络
2.1循环神经网络
通用配方。 考虑在自然语言处理中用于单词预测的标准RNN。
令h i是与序列中的单词i相关的特征向量。 在常规香草RNN中,使用上一步的特征向量h j和当前单词x i来计算h i,因此我们具有:
公式
常规RNN的邻域概念是序列中的上一步。 对于图,邻域的概念由图结构给出。 如果h i代表顶点i的特征向量,则图RNN的特征向量的最通用形式是
公式(1)
其中x i表示数据矢量,{h j:j→i}表示相邻顶点的特征矢量集。 观察到集合{h j}是无序的,这意味着h i是内在的,即通过顶点重新索引是不变的(图之间不需要顶点匹配)。 f G-RNN的其他属性是局部性,因为仅考虑顶点i的邻居,权重共享,并且此类向量与图的长度无关。 总而言之,要在图RNN中定义特征向量,需要一个映射f,该映射将输入无序向量{hj}(即所有相邻顶点的特征向量)和数据向量xi作为输入,图1(a )。
我们将映射f G-RNN称为图RNN中的邻域传递函数。 在常规RNN中,每个邻居都是相对于当前单词的不同位置(距离中心1个位置)。 在图形中,如果未对边缘进行加权或注释,则无法区分相邻对象。
唯一特殊的顶点是构建邻域的中心顶点。 这解释了等式的一般表述。 (1)。 Scarselli等人描述了这种类型的用于深度学习的可变长度图形式化。 (2009); Gilmer等。 (2017); Bronstein等。 (2017a),术语和符号略有不同。
Scarselli等人的图神经网络。 (2009) Gori等人介绍了针对任意图的图RNN的最早工作。 (2005); Scarselli等。 (2009)。 作者建议使用带有多层感知器的香草RNN定义特征向量h i:
公式(2)
σ是S形函数,A,B,U,V是要学习的权重参数。
最小化 (2)不持有闭式解,因为模型的依赖性计算图不是有向无环图(DAG)。 Scarselli等。 (2009年)提出了一个定点迭代方案:对于t = 0、1、2,…
公式(3)
只要映射是收缩的,就可以保证迭代方案收敛,这可能是一个很强的假设。 此外,大量的迭代可能在计算上是昂贵的。
Li等人的门控图神经网络。 (2016)。 在这项工作中,作者使用Chung等人的门控循环单位(GRU)。 (2014年):
公式(4)
Hadamard点向乘法运算符在哪里。 Li等人将此模型用于NLP任务。 (2016)以及Gilmer等人的量子化学研究。 (2017年)进行快速有机分子特性估算,为此标准技术(DFT)需要花费大量的计算时间。
Tai等人的树结构LSTM。 (2015)。 作者将Hochreiter&Schmidhuber(1997)的原始LSTM模型扩展为树形图结构:
公式(5)
与Scarselli等人的作品不同。 (2009); Li等。 (2016年),Tree-LSTM不需要迭代过程来更新其特征向量h i,因为树结构也是原始LSTM的DAG。 因此,可以用递归公式来更新特征表示(5)。 然而,树是图的一种特殊情况,并且这种递归公式不能直接应用于任意图结构。 该模型的关键特性是函数f ij,它充当从相邻j到顶点i的边缘上的门。 完成任务后,门将关闭以使信息从邻居j流动到顶点i,或者门将打开以停止信息。 这似乎是图上学习系统的基本属性,因为某些邻居可能无关紧要。 例如,对于社区检测任务,图神经网络应了解要交流的邻居(相同的社区)和要忽略的邻居(不同的社区)。 在不同的情况下,Dauphin等。 Van den Oord等人(2017)在常规ConvNets中添加了门控机制,以改善翻译任务的语言建模。 (2016年)考虑了激活后具有卷积层的门控单元,并将其用于图像生成。
2.2卷积神经网络
通用配方。 现在考虑用于计算机视觉的经典ConvNet。 令h ij表示与像素(i,j)关联的图层上的特征向量。 在常规的ConvNet中,通过对像素(i,j)附近的所有像素(i,j)的特征向量h i 0 j 0进行非线性变换apij'0 0来获得h
+1。 例如,使用3×3滤镜,我们将有:
公式
上面的符号{hi 0 j 0:| i − i 0 | ≤1且| j − j 0 | ≤1}表示属于顶点(i,j)的3×3邻域的所有特征向量h
i 0 j 0的级联。 在ConvNets中,邻域的概念由欧几里得距离给出。 如前所述,对于图,邻域的概念由图结构给出。 因此,图ConvNet在顶点i处特征向量的最通用形式为
公式(6)
其中{hj:j→i}表示相邻顶点的特征向量集。 换句话说,要定义图ConvNet,需要一个映射f G-CNN,将向量hi(中心顶点的特征向量)以及一组无序向量{hj}( 所有相邻顶点的特征向量),请参见图1(b)。 我们还将映射f G-CNN称为邻域传递函数。
在常规的ConvNet中,每个邻居都是相对于中心像素的不同位置(例如,中心向上1个像素,中心左侧1个像素)。 对于图RNN,唯一适用于图ConvNets的顶点是围绕其构建邻域的中心顶点。
Sukhbaatar等人的CommNets (2016)。 作者介绍了具有以下邻域传递函数的图ConvNet的最简单实例化:
公式(7)
其中`表示层级别,ReLU是整流的线性单位。 我们将这种架构称为普通图ConvNet。 Sukhbaatar等。 (2016)使用这个图神经网络来学习多个代理之间的通信,以解决多个任务,例如流量控制。
Marcheggiani&Titov的句法图卷积网络(2017)。 作者提出了以下传递函数:
公式(8)
其中ηij充当边缘门,并通过以下公式计算:
公式(9)
这些门控边缘在本质上与Tai等人提出的Tree-LSTM非常相似。 (2015)。 我们认为这种机制对图形很重要,因为它们将能够了解哪些边对要解决的图形学习任务很重要。
3模型
建议的图形LSTM。 首先,我们建议扩展Tai等人的Tree-LSTM。 (2015)应用于任意图形和多层:
公式(10)
由于没有递归公式是图形的一般情况,因此我们按照Scarselli等人的方法进行。 (2009年),并使用迭代过程求解方程。 (10):在层上,对于t = 0,1,...,T 公式() 换句话说,向量h
+1是通过在层处从t = 0,..,T运行模型来计算的。 i
,t = T产生向量h i,它变为h+1以及下一层的输入x
+1。 我提出的Graph LSTM模型不同于Liang等人。 (2016); Peng等。 (2017年)主要是因为这些先前模型中的单元格C G-LSTM并未在T上多次迭代,这降低了Graph LSTM的性能(请参见图4的数值实验)。
拟议的门控图卷积网络。
我们利用Sukhbaatar等人的香草图ConvNet体系结构。 (2016),等式(7),以及Marcheggiani&Titov(2017),等式(8)的边缘门控机制,通过考虑以下模型:
公式(11)
其中h= 0 i是图ConvNet的公式(因为它同时使用了中心顶点的特征向量h’i和相邻顶点的特征向量h`j),并且具有边缘选通特性。
残留门控图卷积网络。 此外,我们使用He等人介绍的残差网络(ResNets)制定了多层门控图ConvNet。 (2016)。 归结为在连续的卷积层之间添加身份运算符:
公式(12)
就像我们将看到的那样,这种多层策略对于图神经网络非常有效。
4实验
4.1速配
我们考虑Scarselli等人提出的子图匹配问题。 (2009),见图2(a)。
目的是在具有可变大小的较大图形G k中找到给定子图形P的顶点。
识别不同图中相似的局部模式是图神经网络最基本的任务之一。 子图P和较大图G k是用随机块模型(SBM)生成的,例如参见Abbe(2017)。 SBM是一个随机图,它按如下方式向每个节点分配社区:如果两个顶点属于同一社区,则它们与概率p相关;如果它们属于不同社区,则它们与概率q相关。
对于所有实验,我们生成一个SBM q = 0.5的20个节点的子图P,并且P上的信号是通过均匀随机分布生成的,其词汇表的大小为3,即{0,1,2}。 较大的图G k由10个社区组成,其大小在15到25之间随机生成。每个社区的SBM为p = 0.5。 除非另有说明,用作噪声级别的q的值为0.1。 此外,G k上的信号也在{0,1,2}之间随机产生。 所有神经网络的输入都是大小可变的图,输出是输入图的顶点分类向量。 最后,神经网络的输出是来自隐藏状态的简单的完全连接的层。
所有报告的结果均取5条路径的平均值。 我们运行5种算法; Li等人的门控图神经网络。 (2016),Sukhbaatar等人的CommNets。 (2016),Marcheggiani&Titov的SyntacticNets(2017),以及第3节中提出的Graph LSTM和Gated ConvNets。我们升级了Li等人的现有模型。 (2016); Sukhbaatar等。 (2016); Marcheggiani&Titov(2017)为Li等人撰写的多层版本。 (2016),并将ResNets用于所有三种架构。 我们还使用Ioffe&Szegedy(2015)的批处理归一化技术来加快算法和Li等人的学习收敛。 (2016); Sukhbaatar等。 (2016); Marcheggiani&Titov(2017)。 学习时间表如下:最大迭代次数,或等效地随机生成的带有子图的图表数量为5,000,并且如果不减少100次迭代的平均损失,则学习率将降低1.25倍。 损失是两个熵(子图P类和较大图G k的类)分别按其大小加权的交叉熵。 精度是归一化混淆矩阵w.r.t.的对角线的平均值。
群集大小(混淆矩阵衡量正确且错误分类的节点数每个课程)。 我们还报告了生成100张图形的时间。 每个实验都会给出架构的选择。 所有算法都进行了如下优化。 我们确定参数的预算为B = 100K,层数为L =6。将自动计算每层的隐藏神经元H的数量。 然后,我们为每种架构手动选择优化程序和学习率,以最大程度地减少损失。 对于此任务,李等人。 (2016); Sukhbaatar等。
(2016); Marcheggiani&Titov(2017)以及我们的门控ConvNets与Adam一起工作良好,学习率为0.00075。 图表LSTM使用SGD的学习率为0.075。 此外,图LSTM和Li等人的内部迭代步骤T的值。 (2016)是3。
第一个实验的重点是浅图神经网络,即单层L =1。我们还改变了噪声水平,即连接两个不同社区中两个顶点的SBM中的概率q(q越大,混合越多)。 是社区)。 超参数的选择如下。 除L = 1外,预算为B = 100K,并且自动为每种体系结构计算隐藏神经元H的数量以满足预算。 图3的第一行报告了五种算法以及不同级别的噪声q = {0.1,0.2,0.35,0.5}的准确性和时间。
RNN架构以虚线绘制,而ConvNet架构以实线绘制。 对于浅层网络,所有RNN架构(LSTM和Li等人,图2016)的性能要好得多,但是它们比我们建议的ConvNets架构和Sukhbaatar等人花费的时间更多。
(2016); Marcheggiani&Titov(2017)。 不出所料,当噪声增加时,所有算法的性能都会下降。
第二个实验证明了与浅层网络相比,具有多层的重要性。 我们改变层数L = {1,2,4,6,10},并将隐藏神经元的数目固定为H =50。请注意,对于所有体系结构,预算都不相同。 图3的第二行报告了准确度和时间w.r.t. L(中间图是左图的缩放)。
所有模型显然都受益于更多的层,但是基于RNN的体系结构在许多层上的性能下降。 ConvNet体系结构受益于较大的L值,所提出的图形ConvNet性能优于Sukhbaatar等人。 (2016); Marcheggiani&Titov(2017)。 此外,所有ConvNet模型都比RNN模型快。
在第三个实验中,我们针对参数B = {25K,50K,75K,100K,150K}的不同预算评估算法。 对于此实验,我们固定层数L = 6,并在给定预算B的情况下自动计算神经元H的数量。结果报告在图3的第三行中。对于此任务,建议的图ConvNet对于以下任务最有效 庞大的预算,同时比RNN更快。
我们还展示了超参数T对Li等人的影响。 (2016)和建议的图形LSTM。
我们确定H = 50,L = 3和B = 100K。 图4报告了T = {1,2,3,4,6}的结果。 T值对图形LSTM的性能产生不良影响。 多层李等。 (2016)并没有真正受T影响。 最后,随着T值的增大,计算时间自然会增加。
4.2半监督集群
在本节中,我们考虑半监督聚类问题,请参见图2(b)。 这也是网络科学中的标准任务。 对于这项工作,它包括在图上找到10个社区,并为每个社区指定1个单一标签。 此问题更具判别性。 相比以前的单一模式匹配问题,该架构只需要找到2个集群(即 50%随机机会)。 对于聚类,我们有10个聚类(大约10%的随机机会)。 如上一节所述,我们使用SBM生成长度可变的社区图。 每个社区的大小是在5到25之间随机生成的,并且标签是在每个社区中随机选择的。 概率p为0.5,q取决于实验。 对于此任务,李等人。 (2016); Sukhbaatar等。 (2016); Marcheggiani&Titov(2017)以及拟议的门控ConvNets与Adam一起工作良好,学习率为0.00075。 图表LSTM使用SGD的学习率为0.0075。 图LSTM和Li等人的T值。 (2016)是3。
图5中报告了与先前任务相同的一组实验。当层数增加时(中间行),ConvNet架构明显优于RNN,其中建议的Gated ConvNet胜过其他架构。 对于固定数量的层(L = 6),我们的图表ConvNets和Marcheggiani&Titov(2017)在所有预算中均能达到最佳性能,同时支付合理的计算成本。
接下来,我们报告模型的学习速度。 我们确定L = 6,B = 100K,并自动计算H以满足预算。 图6报告了准确度w.r.t. 时间。 ConvNet架构的收敛速度比RNN快,尤其是对于半监督任务。
要结束本研究,我们有兴趣将基于学习的方法与非学习的变式方法进行比较。 为此,我们用Grady(2006)提出的带有标记和未标记的数据来解决变分Dirichlet问题。 我们进行了100次实验,并使用与学习技术相同的设置(每班一个标签)报告平均准确度为45.37%。 最佳学习模型的性能为82%。 当学习技术使用具有真实性的训练数据时,学习技术在使用不同范例的情况下会产生更好的性能,而变体技术则不使用此类信息。
缺点是需要查看2000个训练图才能达到82%。 但是,训练完成后,这些学习技术的测试复杂度为O(E),其中E是图中的边数。 相对于变分Dirichlet模型,该模型可解决复杂度为O(E 3/2)的稀疏线性方程组,这是一个优势,请参见Lipton等。 (1979)。
5结论
这项工作探索了图神经网络体系结构的选择,以解决可变长度图的学习任务。 我们针对两个基本的图学习问题(即子图匹配和图聚类)开发了分析控制实验。 数值实验表明,图ConvNets随着网络的深入,其精度会单调提高,而图RNN的性能会随着层数的减少而降低。 这使我们考虑了门控图ConvNets,Eq的最通用表述。 (11)。 我们还探讨了残差图的好处。 (12)。 没有残差,现有的图神经网络最多只能堆叠几层。 这使得该属性对于图神经网络至关重要,当堆叠6层以上时,图神经网络的准确性提高10%。 未来的工作将集中于解决化学,物理和神经科学领域的特定问题。