深入浅出——网络嵌入算法Node2vec

最新推荐文章于 2024-04-15 17:20:00 发布

dastu

最新推荐文章于 2024-04-15 17:20:00 发布

阅读量1.3k

点赞数 1

分类专栏：社交网络文章标签：推荐系统机器学习 python 人工智能社交网络

本文链接：https://blog.csdn.net/weixin_44467105/article/details/110938435

版权

社交网络专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Node2vec和Deepwalk算法类似，利用词嵌入的思想来做网络节点嵌入的半监督学习算法。
但不同点在于，Node2vec的随机游走方式发生了改变。

Node2vec算法最主要的一个贡献也就是对于邻居节点的定义。Node2vec算法能够通过调整参数，灵活的调整给定节点的邻居。

一.前提

在论文中，作者认为对网络中节点进行嵌入应该满足两点：
1.同质性假设：相互关联并且属于同一个社区的节点应该嵌入在相近的位置。

2.结构等价假设：结构相似的节点应该嵌入在相近的位置。
以下图为例，节点 $u$ 和节点 $S_1$ 属于同一个社区，并且相互连接，那么他们应该满足同质性假设。另外节点 $u$ 和节点 $S_6$ 结构相似，满足结构等价假设。
在这里插入图片描述
为了满足能满足这两种假设，提出综合深度优先遍历（DFS） 和 广度优先遍历（BFS） 的方法来进行随机游走。通过设置参数来决定两种遍历的偏向性。

结构等价性（比如说两个节点都是桥节点）是通过与源节点直接相连的节点来反映的，将游走过程限制在邻居节点能够发现节点的等价性。广度优先遍历能够将游走过程限制在邻居节点，从而能够很好的获得每个节点的邻居（节点的微观结构）。在广度优先遍历中，采用得到的邻居节点往往会重复很多次，这一点可以减少邻居节点变化的方差。
同质性往往不能直接通过邻居节点来反映，两个节点属于同一个社区并不代表两个节点一定相互连接，所以需要有深度优先遍历来探索更深层次的节点。DFS的问题在于，不仅要推断网络中存在哪些节点间的依赖关系，而且还要描述这些依赖关系的确切性质，这是很困难的，因为我们有一个样本大小的约束和一个大的邻域来探索，从而导致高方差。其次，移动到更大的深度会导致复杂的依赖关系，因为采样的节点可能远离源，并且可能不具有代表性。

这里需要区分的是：两个节点结构等价，并不要求两个节点相互连接。但是探索这两个节点是否结构等价，是判断这两个节点与其邻接节点的关系。两个节点同质，也并不要求两个节点相互连接，并且判断两个节点是否同质，也不是判断两个节点和邻接节点的关系，而是判断两个节点的某种依赖关系。

二.Node2vec

随机游走

给定源节点 $u$ , 进行一个长度为 $l$ 的2阶随机游走， $c_i$ 为游走的第 $i$ 个节点， $c_0$ 为源节点 $u$ 。
根据第 $i - 1$ 个节点，可以得到第 $i$ 个节点的分布：
![](https://img-blog.csdnimg.cn/20201210212245586.png)qizhong