GAT基本原理与tensorflow2.0实现

最新推荐文章于 2024-05-31 19:51:37 发布

zhong_ddbb

最新推荐文章于 2024-05-31 19:51:37 发布

阅读量2k

点赞数 3

分类专栏：深度学习 tensorflow2.0 推荐系统文章标签： GAN 图神经网络推荐系统 tensorflow

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/110843394

版权

深度学习同时被 3 个专栏收录

26 篇文章 11 订阅

订阅专栏

推荐系统

22 篇文章 4 订阅

订阅专栏

tensorflow2.0

17 篇文章 6 订阅

订阅专栏

文章目录

Attention的基本形式

图注意力模型（Graph Attention Network GAN）将attention引入图神经网络。在GAN中有两种思路：

（1）Global graph attention

即在更新图中某一个节点的Embedding时，图上的每一个顶点 $i$ 都参与到attention运算。

优点：完全不依赖于图的结构，对于inductive任务无压力

缺点：忽略了图结构的这个特征，影响最终的效果，计算代价大。

（2）Mask graph attention

注意力机制的运算只在邻居顶点上进行，这是论文中采用的方法。

GAT基本原理

回顾nlp中的attention机制：深入理解 Bert核心：Self-Attention与transformer ，基本思路相同，都是先计算注意力系数，然后进行加权求和。然后映入多头机制，增强学习能力。

1、计算attention系数

首先，计算顶点 $i$ 与邻居节点 $\in \mathcal N_i)$ 之间的相似系数：
$e_{i j}=a\left( \left[\mathbf{W} \vec{h}_{i}|| \mathbf{W} \vec{h}_{j} \right]\right) \;j \in \mathcal N_i$
其中， $W$ 是共享参数，相当于对 $h_j$ 特征进行了增强， $[. ∣ ∣ .]$ 表示对变换后的特征进行concatenate； $a(\cdot)$ 把拼接后的特征映射到一个实数上。

通过这个方式，选取合适和 $W 和 a ()$ ，可以有效的捕捉到顶点 $i, j$ 之间的相关性。

在进行加权求和之前还要进行归一化操作：
$\begin{aligned} \alpha_{i j}&=\operatorname{softmax}_{j}\left(e_{i j}\right)\\ &=\frac{\exp \left(e_{i j}\right)}{\sum_{k \in N_{i}} \exp \left(e_{i k}\right)}\\ &=\frac{\exp \left(\operatorname{LeakyReLU}\left(\overrightarrow{\mathbf{a}}^{T}\left[\mathbf{W} \vec{h}_{i} \| \mathbf{W} \vec{h}_{j}\right]\right)\right)}{\sum_{k \in N_{i}} \exp \left(\operatorname{LeakyReLU}\left(\overrightarrow{\mathbf{a}}^{T}\left[\mathbf{W} \vec{h}_{i} \| \mathbf{W} \vec{h}_{k}\right]\right)\right)} \end{aligned}$
整个过程如下图所示：

在这里插入图片描述

2、加权求和

这个比较简单，直接根据得到的权重，对邻居特征进行加权求和，如下图：
$\vec{h}_{i}^{\prime}=\sigma\left(\sum_{j \in N_{i}} \alpha_{i j} \mathbf{W} \vec{h}_{j}\right)$
这样，GAT输出的对于每个顶点 $i$ 的新特征就融合了邻域信息。

3、引入多头机制的GAT

通过初始化 $k$ 个不同的权重 $W$ ，从不同的角度对原有的embedding进行增强，提取到不同的注意力参数，在进行加权求和。对于不同的注意力系数，又有两种方法对邻居节点进行聚合。

（1）直接横向拼接，这样新的embeddin向量的维度是原来的 $k$ 倍：
$\vec{h}_{i}^{\prime}=\|_{k=1}^{K} \sigma\left(\sum_{j \in N_{i}} \alpha_{i j}^{k} \mathbf{W}^{k} \vec{h}_{j}\right)$
（2）k个注意力机制的结果取均值：
$\vec{h}_{i}^{\prime}=\sigma\left(\frac{1}{K} \sum_{k=1}^{K} \sum_{j \in N_{i}} \alpha_{i j}^{k} \mathbf{W}^{k} \vec{h}_{j}\right)$
具体计算过程如下：