Graph Embedding

Savannah913

已于 2022-08-08 03:15:33 修改

阅读量749

点赞数 2

分类专栏：图神经网络文章标签：深度学习自然语言处理人工智能

于 2022-08-08 03:15:11 首次发布

本文链接：https://blog.csdn.net/weixin_45847320/article/details/126203206

版权

图神经网络专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Deepwalk（适用于无向图）

LINE（large-scale Information Network Embedding）（有向图无向图都可）

动态时间规整算法DTM（求两个序列的距离）

对于图节点的向量表示，有one-hot向量的方式，即n个n维向量。但是使用这种方式，首先，如果节点的个数有很多，那么节点的向量表示就会占用很大空间，其次，one-hot向量表示不能表现出节点之间图上的关系，所以引入了Graph Embedding，优点在于首先简化了节点表市长度，其次是能够表示出节点之间图上的关系信息。

Deepwalk（适用于无向图）

采用随机游走(Random Work)的方式得到图上的信息，随机游走的思想:首先给定一个节点，可以按照与节点相连的边进行的随机游走，到达下一个顶点以后就随机选择一条边，进行下一次的随机游走，通过这样的方式就能得到每个随机游走的节点的序列，在对每个节点进行多次的随机游走，就得到了图上面节点的序列，再定义一个窗口，通过P(窗口大小的所有节点|某个节点的embedding)就能得到节点的Embedding。

算法如下：

w：定义给定节点向前或者向后是多少步，计算这个范围的节点的值：（在给定V4的embedding的情况下，计算V2,V3,V5,V6同时出现的概率）通过这种方式最终能够得到所有节点的embedding的表示。

d：定义embedding的大小是多少
γ：定义每个节点的循环次数
t：定义步长——walk length

循环γ次，对节点进行打乱，对于G中每个节点i进行随机游走t步，就得到了一个随机游走的序列，对这个序列以及事先定义好的graph embedding $\Phi$ 和随机游走序列，以及窗口大小通过SkipGram的方法学习graph embedding。

graph embedding是无监督的训练方式，如何判断训练好坏？

首先给定一张图，并且事先知道它每个节点的label值，此时通过无监督的方式训练每个节点的embedding，训练完成之后，把节点的embedding当做特征，把它输入到分类器中，根据它产生的label我们就知道了分类器的好坏，而这个分类器的好坏就能表示出计算出的embedding的好坏。

LINE（large-scale Information Network Embedding）（有向图无向图都可）

在比较大的图上做embedding，能够使得效果比较好。
一阶相似性：如果两个节点相连接，而且这两个节点的边的权重比较大，那么这两个节点是很相似的。
二阶相似性：如果两个节点的邻居是很相似的，那么这两个节点即使不连接也是很相似的。

如果图中节点的度比较低，也就是节点连接的邻居比较少，那么用LINE求解邻居相似性，就不会达到特别好的效果。

一阶相似性

先初始化所有节点的embedding，即 $u_{i}$ ，那么节点i和节点j的联合概率分布就可以求得，以节点6和节点7为例：（sigmoid函数）

节点6和节点7的经验概率分布可以表示为，节点6和节点7相连接的边的权重除以图上面所有边的权重。

得到两个节点的联合概率分布和经验概率分布之后，下一步需要求解两种概率分布的距离，用到的是KL散度。

举个求解KL散度的例子：

而在我们所研究的联合概率分布和经验概率分布中的KL散度： $\widehat{p_{1}},p_{1}$ 二者的KL散度

由于上述KL散度化简后，第一项是边之间的权重，是固定的，所以计算loss的时候不需要，第二项的W也是，所以原式能够化简为

而训练的目的就是使得这个距离最小，把这个距离当做loss函数，这样就能学到最终embedding的表示。

二阶相似性

定义每个节点有两个向量表示，第一个向量表示是节点本身的向量表示 $\overrightarrow{u}$ ，第二个向量表示是该节点作为其他向量邻居的向量表示 $\overrightarrow{{u}'}$ 。

求条件概率：给定 $v_{i}$ 时， $v_{j}$ 的概率公式，在做一个归一化操作：

求经验概率：节点i和节点j相连的边的权重除以节点i的出度的边的权重之和：

$\widehat{p_{2}} (v_{i}|v_{j})= \frac{w_{i,j}}{d_{i}},d_{i} =\sum_{k\in N(i)^{w_{ik}}}$

举个例子：

求上述两个概率的KL散度

对于上面这个式子，为其增加一个控制节点重要性的因子 $\lambda _{i}$ ，而且使得 $\lambda _{i}$ = $d_{i}$ ，那么此时，在去电对loss函数不影响的值，将原来的KL散度作为loss函数就可以写为：

仍然将节点原来的表示 $u_{i}$ 作为节点的二阶embedding表示。将一阶和二阶embedding训练结束之后，需要将二者组合成一个embedding。通常采用直接拼接的方式将二者组合。

Node2vec

同质性(homophily)：距离相近节点的embedding应该尽量近似，节点u与其相连的节点s1、s2、s3、s4的embedding表达应该是接近的，这就是“同质性“的体现。
结构等价性(structural equivalence)：结构上相似的节点的embedding应该尽量接近，节点u和节点s6都是各自局域网络的中心节点，（连接两个簇的中间节点）结构上相似，其embedding的表达也应该近似，这是“结构性”的体现。

关于Node2vec算法中Graph Embedding同质性和结构性的进一步探讨 - 知乎 (zhihu.com)

Node2vec和deepwalk一样也是一种游走的方法，但是Node2vec是一种有策略的游走方法。如下图所示，从节点t走到节点v之后，下一个节点有t， $x_{1},x_{2},x_{3}$ ，其中，变标签表示搜索偏差α，此时用(v,x)表示要走的下一步，用 $\pi _{vx}$ 表示游走到那个边上的可能性， $\pi _{vx} = \alpha _{pq}(t,x)\cdot w_{vx}$ ，其中， $w_{vx}$ 表示边的权重，重点是 $\alpha _{pq}(t,x)$ ，公式如下：

在 $\alpha _{pq}(t,x)$ 公式中， $d_{tx}$ =0指的是，距离t节点为0的节点，即从t节点到达v节点之后，又重新到达t节点这个α是 $\frac{1}{p}$ ， $d_{tx}$ =1指的是，距离t节点为1的节点（节点z和节点 $x_{1}$ ），即走向t节点或者是走向z节点的α是1， $d_{tx}$ =2指的是，到达距离t节点为2的节点（节点x2和节点x3）的α是 $\frac{1}{q}$ 。

计算游走到下一个节点的可能性： $\pi _{vx} = \alpha _{pq}(t,x)\cdot w_{vx}$
t节点在又走到了v节点之后，下一步游走到z的可能性为0，因为，节点v和节点z不相连，所以 $w_{vz}$ =0。t节点在又走到了v节点之后，下一步走到t的可能性： $w_{v,t}*\frac{1}{p}$ ，其他路径如下：

算法表示：

这个梯度下降算法就是，在给定u的情况下，计算周围邻居节点出现的概率。取使得该概率最大值的embedding

pq值对结果的影响

Struc2vec

之前的embedding都是基于近邻关系，但是有些节点没有近邻，也有相似的机构性。

定义距离信息

$f_{k}(u,v)$ ：表示节点u和节点v在k阶邻居下的距离
khop邻居表示k跳邻居。
S(s):集合S中每个元素的度的有序序列。

例子

上述计算最终停留在计算g(s,s)中，先学习一个DTM动态时间规整算法：

动态时间规整算法DTM（求两个序列的距离）

如果直接求左图中两个两个线上的点的欧氏距离，结果就会很大，但是，如果按照虚线将对应的节点给对应好，那么两部分节点的距离就会等于0，这种距离计算方式就叫做动态时间规整，即通过不断压缩和拓展x轴，使得两个节点的距离最小，即动态时间规整算法DTM。表现在右侧矩阵上就是，按照值最小的点走，走到最后，所有经过点的加和最小就表示两个节点的动态时间规整计算出的距离。