【Graph Neural Network】 GraphSAGE 基本原理与tensorflow2.0实现

最新推荐文章于 2024-06-03 15:33:40 发布

zhong_ddbb

最新推荐文章于 2024-06-03 15:33:40 发布

阅读量1.7k

点赞数 2

分类专栏：深度学习推荐系统 tensorflow2.0 文章标签：深度学习推荐系统图神经网络

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/110097190

版权

深度学习同时被 3 个专栏收录

26 篇文章 9 订阅

订阅专栏

推荐系统

22 篇文章 4 订阅

订阅专栏

tensorflow2.0

17 篇文章 6 订阅

订阅专栏

文章目录

GCN是一种利用图结构和邻居顶点属性信息学习顶点Embedding表示的方法，GCN是直推式学习（只能在一个已知的图上进行学习），不能直接泛化到未知节点，当网络结构改变以及新节点的出现，直推式学习需要重新训练（复杂度高且可能会导致embedding会偏移），很难落地在需要快速生成未知节点embedding的机器学习系统上。

**GraphSAGE(Graph SAmple and aggreGatE)**是一种能利用顶点的属性信息高效产生未知顶点embedding的一种归纳式(inductive)学习的框架。

与GCN类似，其核心思想：学习一个映射 $f (.)$ ，通过该映射图中的节点 $v_i$ 可以聚合它自己的特征 $x_i$ 与它的邻居特征 $x_j \;(j \in N(v_i))$ 来生成节点的新 $v_i$ 表示。 区别在于并未利用所有的邻居节点，聚合的方式也不同。GraphSAGE框架的核心是如何聚合节点邻居特征信息。

GraphSAGE 前向传播算法

下图是GraphSAGE的学习过程：

在这里插入图片描述

主要步骤如下：

（1）对邻居随机采样

（2）使用聚合函数将采样的邻居节点的Embeddin进行聚合，用于更新节点的embedding。

（3）根据更新后的embedding预测节点的标签。

更新过程：

（1）为了更新红色节点，首先在第一层(k=1)我们会将蓝色节点的信息聚合到红色节点上，将绿色节点的信息聚合到蓝色节点上。所有的节点都有了新的包含邻居节点的embedding。

（2）在第二层(k=2)红色节点的embedding被再次更新，不过这次用的是更新后的蓝色节点embedding，这样就保证了红色节点更新后的embedding包括蓝色和绿色节点的信息。这样，每个节点又有了新的embedding向量，且包含更多的信息。

算法细节如下：

在这里插入图片描述

需要注意以下几点：

1、 $h_v^0$ 是每个节点的初始embedding特征向量

2、当 $k = 1$ 时，遍历所有的节点，求 $h_v^1$ ，也就是算法的4-5行，也是最核心的部分。具体的：

（1）先对当前节点 $v$ 的邻居进行采样，得到邻居节点的集合 $\mathcal N(v)$ ，对所有的邻居节点 $\{ u \in \mathcal N(v)\}$ 的 $k - 1$ 层的embedding： $h_u^{(k-1)}=h_u^{0}$ 进行聚合，得到 $v$ 的邻居节点的代表向量 $h_{\mathcal N(v)}^k$ 。如何聚合后面会提到。

（2）concat操作，将的、邻居节点的代表向量 $h_{\mathcal N(v)}^k$ 与自身的 $h_v^{k-1}=h_v^0$ 进行连接，然后与权重变量 $W$ 相乘，并进行激活。其中 $W$ 用于控制在模型的不同层或“搜索深度”之间传播信息。

这样求出的 $h_v^1$ 就包含了邻居节点的信息。以此类推，当求 $h_v^2$ 时会用到 $h_u^1,u \in \mathcal N(v)$ ，而从上面的描述可知 $h_u^1$ 已经包含了 $u$ 的邻居节点信息。所以在每次迭代或搜索深度时，节点从它们的本地邻居处聚集信息，随着这个过程的迭代，节点从图的更远处获得越来越多的信息。

3、随着K增大，节点可以聚合更多的信息，K既是聚合器的数量，也是权重矩阵的数量，还是网络的层数，这是因为每一层网络中聚合器和权重矩阵是共享的。网络的层数可以理解为需要最大访问到的邻居的跳数(hops)，比如在figure 1中，红色节点的更新拿到了它一、二跳邻居的信息，那么网络层数就是2。

采样算法&聚合(aggragator)操作

采样算法

GraphSAGE采用了定长抽样的方法。先确定需要采样的邻居数 $N$ ，然后采用有放回的重采样/负采样的方法达到 $N$ ，这样做可以方便后期训练。

聚合(aggragator)操作

聚合方式有：平均、GCN归纳式、LSTM、pooling聚合器。（因为邻居没有顺序，聚合函数需要满足排序不变量的特性，即输入顺序不会影响函数结果）

1，平均聚合：对邻居节点的embedding中的每个维度取平均，然后与自身节点的embedding拼接后进行非线性变换。
$\begin{array}{c} h_{N(v)}^{k}=\operatorname{mean}\left(\left\{h_{u}^{k-1}, u \in N(v)\right\}\right) \\ h_{v}^{k}=\sigma\left(W^{k} \cdot \operatorname{CONCAT}\left(h_{v}^{k-1}, h_{N(u)}^{k}\right)\right) \end{array}$
2，归纳式聚合：直接对目标节点和所有邻居emebdding中每个维度取平均，后再非线性转换。
$h_{v}^{k}=\sigma\left(W^{k} \cdot \operatorname{mean}\left(\left\{h_{v}^{k-1}\right\} \cup\left\{h_{u}^{k-1}, \forall u \in N(v)\right\}\right)\right.$
3，LSTM 聚合

LSTM函数不符合“排序不变量”的性质，需要先对邻居随机排序，然后将随机的邻居序列embedding作为LSTM输入。

4，Pooling聚合：先对每个邻居节点上一层embedding进行非线性转换，再按维度应用 max/mean pooling，捕获邻居集上在某方面的突出的／综合的表现以此表示目标节点embedding。
$\begin{aligned} h_{N(v)}^{k} &=\max \left(\left\{\sigma\left(W_{\text {pool}} h_{u i}^{k}+b\right)\right\}, \forall u_{i} \in N(v)\right) \\ h_{v}^{k} &=\sigma\left(W^{k} \cdot \operatorname{CONCAT}\left(h_{v}^{k-1}, h_{N(u)}^{k-1}\right)\right) \end{aligned}$

参数学习

GraphSAGE的参数主要是聚合器的参数和权重变量 $W$ 。为了获得最优参数就得定义合适的损失函数。

1、有监督学习

可以使用每个节点的预测label和真实label的交叉熵作为损失函数。

2、无监督学习

在这里插入图片描述

其中： $z_u$ 是节点 $u$ 通过GraphSAGE生成的embedding；

$v$ 是节点 $u$ 随机游走可到达的"邻居"节点。

$v_n \sim p_n(v)$ 表示 $v_n$ 是从节点u的负采样分 $p_n(v)$ 的采样。负采样指我们还需要一批不是 $u$ 邻居的节点作为负样本。

Q为采样样本数。

embedding之间相似度通过向量点积计算得到。

如何理解这个损失函数？

先看损失函数的蓝色部分，当节点 u、v 比较接近时，那么其 embedding 向量 $z_u, z_v$ 的距离应该比较近，因此二者的内积应该很大，经过σ函数后是接近1的数，因此取对数后的数值接近于0。

再看看紫色的部分，当节点 u、v 比较远时，那么其 embedding 向量 $z_u, z_v$ 的距离应该比较远，在理想情况下，二者的内积应该是很大的负数，乘上-1后再经过σ函数可以得到接近1的数，因此取对数后的数值接近于0。

基于tensorflow2.0实现Graph SAGE

主要实现图的无监督学习与分类。

完整项目实现

参考文章

【Graph Neural Network】GraphSAGE: 算法原理，实现和应用

GNN教程：GraghSAGE算法细节详解！

GraphSAGE: GCN落地必读论文

GraphSAGE 模型解读与tensorflow2.0代码实现

zhong_ddbb

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
【Graph Neural Network】 GraphSAGE 基本原理与tensorflow2.0实现

文章目录GraphSAGE 前向传播算法采样算法&聚合(aggragator)操作参数学习基于tensorflow2.0实现Graph SAGEGCN是一种利用图结构和邻居顶点属性信息学习顶点Embedding表示的方法，GCN是直推式学习（只能在一个已知的图上进行学习），不能直接泛化到未知节点，当网络结构改变以及新节点的出现，直推式学习需要重新训练（复杂度高且可能会导致embedding会偏移），很难落地在需要快速生成未知节点embedding的机器学习系统上。**GraphSAGE(Grap
复制链接

扫一扫

专栏目录