人工智能咨询培训老师叶梓 转载标明出处
当面对图数据时,尤其是那些拓扑结构重要的图,传统的 Transformer 架构并未能充分利用图的连接性特征,导致性能受限。为了解决这一问题,新加坡南洋理工大学的研究人员提出了一种新的神经网络架构——图变换器(Graph Transformer),以泛化 Transformer 模型至任意图。
方法
在自然语言处理(NLP)中,Transformer 将句子视为一个完全连接的图,其中每个单词与其他所有单词都存在连接。这种设计在NLP中是可行的,因为:
-
单词间稀疏连接的不确定性:句子中单词的依赖关系可能随上下文、用户视角和具体应用而变化,因此,让每个单词都与其他单词建立连接是有意义的。
-
计算可行性:句子通常包含的单词数量较少(通常少于几百个),这使得在完全连接的图上训练大型模型成为可能。
然而,在图数据集中,图的连接性结构是任意的,节点数量可能达到数百万甚至数十亿。这种结构为我们提供了丰富的信息,可以作为神经网络的归纳偏置。鉴于节点数量的庞大,实际的图数据集中不可能为每个节点创建完全连接的图。因此,理想的Graph Transformer应该让每个节点只关注其局部邻居,这与图神经网络(GNNs)的做法相同。
在NLP中,基于Transformer的模型通常会为每个单词提供一个位置编码,这对于确保每个单词具有独特的表示并保留距离信息至关重要。然而,在图数据中设计独特的节点位置是具有挑战性的,因为存在对称性,这使得无法定义规范的节点位置信息。
大多数在图数据集上训练的GNN学习的结构化节点信息与节点位置无关。这也正是为什么一些简单的基于注意力的模型(如GAT),其注意力机制是基于局部邻域连接性而非全图连接性,在图数据集上无法取得有竞争力的性能。
为了解决这一问题,Dwivedi等人(2020年)利用图结构预计算拉普拉斯特征向量,并将其用作节点的位置信息。拉普拉斯特征向量是原始Transformer中位置编码的泛化,更好地帮助编码距离感知信息(即,邻近节点具有相似的位置特征,而更远的节点则具有不同的

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



