题目:LINE: Large-scale Information Network Embedding
作者:Jian Tang, Meng Qu, Mingzhe Wang, Ming Zhang, Jun Yan, and Qiaozhu Mei
来源:WWW 2015
这篇文章是北大发表在WWW 2015上的论文,本文主要关注在大规模网络中进行网络节点表示。LINE可用于有向图、无向图以及边有权重的网络。相比于DeepWalk通过随机游走的序列生成方法,LINE对节点一阶相似度和二阶相似度进行建模,根据权重对边进行采样训练。该方法效率高,在工业界中也得到广泛应用。
本文主要亮点
- 优化的目标函数设计的比较好
- 边采样方法能够克服传统的随机梯度下降方法的缺陷,同时提高最后结果的计算效率和效果(efficiency and effectiveness)。
LINE 算法对所有的第一级相似度和第二级相似度节点对进行了概率建模, 并最小化该概率分布和经验分布之间的 KL 距离, 参数学习由随机梯度下降算法决定。
相比DeepWalk纯粹随机游走的序列生成方式,LINE可以应用于有向图、无向图以及边有权重的网络,并通过将一阶、二阶的邻近关系引入目标函数,能够使最终学出的node embedding的分布更为均衡平滑,避免DeepWalk容易使node embedding聚集的情况发生。【转自 https://zhuanlan.zhihu.com/p/58805184】
模型
一阶相似性定义
网络中的一阶相似性是两个顶点之间的局部点对的邻近度。对于由边 ( u , v ) (u,v) (u,v) 链接的每对顶点,该边缘的权重 W u v W_{uv} Wuv 表示 u u u 和 v v v 之间的一阶相似性,如果在 u u u 和 v v v 之间没有观察到边,它们的一阶相似性为0。
定义两个点 i , j i,j i,j 之间的相似度为
p 1 ( v i , v j ) = 1 1 + e x p ( − u i ⃗ T ⋅ u i ⃗ ) p_1(v_i,v_j)=\frac{1}{1+exp(- {\vec{u_i}}^{\mathrm{T}} \cdot \vec{u_i} )} p1(vi,vj)=1+exp(−uiT⋅ui)1
经验相似度
p ^ 1 ( i , j ) = w i j W \hat{p}_1(i,j) = \frac{w_{ij}}{W} p^1(i,j)=Wwij
W W W 是所有边权值之和
KL距离,两个分布之间的距离
O 1 = d ( p ^ 1 ( ⋅ , ⋅ ) , p 1 ( ⋅ , ⋅ ) ) O_