2.2 COMPARISONS TO RELATED WORK
在2.1的描述中图注意力层和之前的图结构的神经网络直接做一些比较:
从计算来看,图注意力层更加高效:自注意力层在边上能够并行,每一个节点的输出特征也能够并行化。不需要特征值分解。单GAT注意力计算注意力计算复杂度,是输入的特征维度,和是图的点和边。这个复杂度和GCNs不相上下。应用多头机制,存储和参数需求K,独立的头计算是并行的。
和GCNs不同的是,对于同一个点给多个点做邻居,但是这个点可以提供不同的重要性。对于模型的容量提升了一个大的台阶。并且,在机器学习领域,分析学习的注意力权重可以增加解释性,这同样适用于机器翻译领域。
注意力机制以共享图中边的方式来应用,因此它不依赖预先处理全局的图结构或者点的特征。这还可以再说几点:
——这个图可以是有向图(我们这里可以简答的忽略 ,如果不存在边)。
——它可以直接应用于归纳学习-训练好的模型应用于另外一个未知的图结构上。
最近发表的归纳学习方法---GraphSage在每一个节点采集相同的数量的样本,来保证计算轨迹的一致性。但是这种方法在推理的时候不能够完整地采集一个节点的邻居。使用LSTM的聚合方法GraphSage能够取得很好的效果。LSTM假设了存在一个节点的邻居节点有一个连续的序,但是作者用了一个随机的序列喂到LSTM。我们的技术不存在这些点,因为GAT会使用节点的所有邻居节点(这与GCN是一样的),而且不存在随机序的问题。
正如在section 1中提到的,GAT是MoNet的一个特例。更详细的,,是x的特征,||表示链接操作。权重方程(在一个node的邻居进行softmax)这和MoNet的patch 操作相似。然而,应该注意的是,与之前考虑的MoNet实例相比,我们的模型使用节点特征进行相似性计算,而不是节点的结构属性(假设预先了解图结构)。