【Graph Embedding】node2vec的原理、核心算法及其应用

最新推荐文章于 2025-03-06 23:45:07 发布

zhong_ddbb

最新推荐文章于 2025-03-06 23:45:07 发布

阅读量7.1k

点赞数 7

分类专栏：深度学习推荐系统文章标签：深度学习图嵌入 node2vec 同质性与同构性

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/109135770

版权

文章目录

不同于基于DFS邻域的DeepWalk和基于BFS邻域的LINE。node2vec是一种综合考虑DFS邻域和BFS邻域的graph embedding方法，可以看作是deepwalk的一种扩展，是结合了DFS和BFS随机游走的deepwalk。

node2vec的同质性和同构性

（1）网络的同构性是指距离近的节点的Embedding的结果应相似，如下图的 $u和s_1$ ；

如何使Graph Embedding的结果能够表达网络的“结构性”？让随机游走的过程更倾向于BFS（广度优先遍历）。因为在执行BFS的过程中，相当于对周边节点进行扫描，当前节点是“局部中心节点”还是边缘节点，其生成的序列包含的节点的数量和顺序必然是不同的。从而让最终的Embedding抓取到更多结构性信息。

（2）网络的“同质性”指结构上相近的节点Embedding的结果应该相似，如下图中的 $u和s_6$ 。

如何使Graph Embedding的结果能够表达网络的“同质性“？需要让随机游走的过程更倾向于DFS，因为DFS更有可能通过多次跳转，游走到远方的节点上，但无论怎样，DFS的游走更大概率会在一个大的集团内部进行，这就使得一个集团或者社区内部的节点的Embedding更为相似，从而更多地表达网络的“同质性”。

在这里插入图片描述

在DeepWalk中，使用DFS随机游走在图中进行节点采样，使用Word2Vec在采样的序列学习图中节点的向量表示，无法灵活地捕捉这两种关系。

node2vec的改进的基本想法就是，通过节点间的跳转概率让Embedding 的结果兼顾同质性和结构性（上图中的蓝色箭头和红色箭头）。

node2vec在推荐系统中的思考

同质性相同的物品很可能是同品类、同属性，或者经常被一同购买的商品，而结构性相同的物品则是各品类的爆款、各品类的最佳凑单商品等拥有类似趋势或者结构性属性的商品。毫无疑问，二者在推荐系统中都是非常重要的特征表达。由于node2vec的这种灵活性，以及发掘不同图特征的能力，甚至可以把不同node2vec生成的偏向“结构性”的Embedding结果和偏向“同质性”的Embedding结果共同输入后续的深度学习网络，以保留物品的不同图特征信息。

node2vec的基本思想

模型

给定网络图 $G (V, E)$ ，node2vec 的目标是学习映射 $\mathbf V \rightarrow \mathbb R^d$ ，该映射将每个顶点 $v$ 映射到低维空间表达 $\vec{\mathbf w_u}$ ，该低维空间表达用于下游任务。这里图 $G$ 可以是有向图也可以是无向图，可以是无权图也可以是带权图。

对于每个节点 $\in V$ ，定义 $N_{S}(u)\subset V$ 作为通过邻域采样策略 $S$ 生成节点 $u$ 的网络邻域。类似 SkipGram，node2vec的优化目标是：给定顶点 $u$ ，在低维空间中最大化其邻居 $N_{S}(u)\subset V$ 的对数似然函数。即:
$\max_{f} \, \, \, \, \, \, \, \sum_{u \in V}logPr(N_S(u) | f(u)). \tag{1}$