网络表示学习——LINE Large-scale Information Network Embedding

论文标题:

LINE: Large-scale Information Network Embedding

作者:

Jian Tang,Meng Qu, Mingzhe Wang, Ming Zhang,              Jun Yan,Qiaozhu Mei

文章背景:

当前大多数图形嵌入方法不能对包含数百万个节点的真实信息网络进行扩展,分析大型信息网络在学术界和行业中一直受到越来越多的关注。而现在的大多数嵌入方法在小型网络中适用性非常不错,但当网络包含数百万乃至数百亿节点时,就看起来并不那么有效,其时间复杂度至少是节点数的二次方。最重要的是,它们着重于关注节点之间的一阶相似性,及两点之间是否直接相连,而忽略了其二阶相似性(即拥有许多共同的邻节点)。因此LINE模型就是为了在信息网络嵌入至低维空间时保留其一阶相似以及二阶相似。

解决问题 :

提出了一种边采样的算法,解决了经典随机梯度下降的局限性,提高了推理的有效性和效率。实验证明LINE算法对于各种现实世界中的信息网络的有效性,包括语言网络,社会网络和引用网络。该算法十分有效,能够在单机上在几个小时之内学习出一个有百万个顶点和上十亿条边的网络的嵌入向量。 这个方法能够处理各种各样的网络,有向无向图,带不带权等等

创新点

(1)提出了一种名为LINE的新型的网络嵌入模型,适合任意类型的信息网络,可以轻松处理数百万节点的网络。它有一个精心设计的目标函数,保留了对一阶相似性和二阶相似性的敏感度。在实际数据中观察到的一阶相似性并不足以保持数据的全局结构。作为补充,探讨了顶点间的二阶相似性,二阶相似性是由顶点间的共享邻居决定的而不是有顶点间的直接联系决定的。 (2)提出了边缘采样算法来优化目标。该算法解决了经典的随机梯度下降算法的局限性,提高了推理的有效性和效率。 (3)优化的目标函数设计的比较好。

解决方案(总体思路即可):    

 LINE这个模型就是把一个大型网络中的节点根据其关系的疏密程度映射到向量空间中去,使联系紧密的节点被投射到相似的位置中去,而在网络中衡量两个节点联系紧密程度一个重要的指标就是这两个节点之间边的权值。在建模的时候不仅仅只考虑了一阶的关系,即两个点之间直接有较大权值的边相连就认为它们比较相似;同时考虑了二阶关系,即两个点也许不直接相连,但是如果它们的一阶公共好友比较多那么它们也被认为是比较相似的。基于这两个角度的思考,提出了两个模型。并且针对这两个模型进行了优化。

模型1:Line with First-order Proximity

该模型只适用于无向图,对于一条无向边(i,j),那么定义该边的两个端点vi和vj的共享概率如下: p1(vi,vj)=1/1+exp(−uTi.uj)   其中ui和uj就是点i和j的向量化表示形式,这个相当于从Embedding的角度来描述点之间的亲密程度。那么实际上从网络的结构数据也能得到关于两个点亲密程度的度量,p2(vi,vj)=wij/W,其中wij代表了点i和j之间的边的权值,W代表了网络中所有边权值的和。 优化目标就是分布p1和p2差异性越小越好,即目标函数如下所示: O=d(p1,p2),这个d()函数用来衡量两个分布之间的差异性,一般可以选用KL散度,将KL散度带入上式再去掉一些固定项,就可以得到最终的优化形式:O=−∑(i,j)∈Ewijlogp1(vi,vj)。

模型2:Line with Second-order Proximity

这个模型考虑节点之间二阶关系的影响,这个模型适合在有向图中使用,(对于无向图,可以通过把一个无向边复制成两个有向边,进行转换)。既然是有向图,一个节点在一条边的关系中就可能作为出度点和入度点这两种角色(分别是u和t),那么既然有两种不同的角色,就给每一个节点两个词向量,分别对应其两种不同的功能。比方说对于一条有向边(i,j)(指的是从i指向j) p1(vj|vi)=exp(tj.ui)/∑|v|k=1exp(tk.ui)。实际上从网络结构本身出发,这两个点之间的亲密程度可以按照该式衡量:p2(vj|vi)=wij/di,而di代表了i点的出度. 同样为了使分布p1和p2的差异性最小化,需要优化该式:O=∑i∈Vαid(p1,p2)其中αi代表了点i的权重,这里直接采用点i的出度di进行表示(其实也可以采用pagerank算法进行计算),将其带入可以得到最终优化的式子如下: O=−∑(i,j)∈Ewijlogp1(vj|vi)

二阶相似性的计算公式为:

模型优化:O(2) 的计算代价十分的昂贵,当计算条件概率为p2(·| vi)时,时间复杂度等于整个顶点集合的总和.因此优化时使用了负采样方法,即把一个多分类问题转化为几个二分类的问题,分子上的节点作为正样本,然后按照一定的概率进行采样网络中的其他节点作为负样本,这样就可以大大降低了复杂度.为每条边指定了一个目标函数:

其中的参数K即负采样样本的个数,是一个提前需要设置的一个数值。

而上述函数又可通过采用异步随机梯度下降算法(ASGD)来优化。每一步中,ASGD算法对小批量边缘进行抽样,然后更新模型参数。但是这也带来一个问题,由于不同边的权值差别会非常大,因此这个系数的值也会差别很大,这样就给优化带来了很大的困难,主要是在选择训练速率上。如果我们根据小权重的边缘选择较大的学习率,那么大权重的边上的梯度就会爆炸式的过大,如果我们根据具有较大权重的边选择学习小的速率,那么小权重上的边的梯度将变得太小。

因此边缘采样同样要优化。从起始边缘采样并将采样的边缘作为二进制边缘,其中采样概率与原始边缘的权重成比例。首先把每一条边都看成是无权值的,即省略公式中的系数wij,然后通过采样从中挑选一些边来进行优化,每一条边被选中的概率和其边的权值成正比,这样拥有较大边权的边会有更大的概率被选中,也就会被优化更多次。

实验数据集

参数设置: 对于所有方法,随机梯度下降的小批量大小设置为1;以起始值p0= 0.025和pt =p0(1-t/T)设定学习速度,T是小批量或边缘样品的总数;为了公平比较,语言网络嵌入的维度被设置为200;而其他网络中,默认设置为128;其他的默认参数设置包括:LINE的负采样K=5,样本总数T=100亿(LINE),T=200亿(GF),窗口大小win = 10,步行长度t = 40,对于Deep Walk,每顶点行走 40;所有的嵌入向量最终通过设置||w||2=1进行归一化。

启发?

LINE模型具有精心设计的客观功能,保留了一阶和二阶接近度,相互互补。并提出了一种有效和有效的边缘抽样方法进行模型推理;解决了加权边缘随机梯度下降的限制,而不影响效率。此外,除一阶和二阶之外更高的相似度也是LINE模型算法在未来能够更加拓宽的方面。异构网络的嵌入,也是研究的方向之一。

文章的主要特点是:

(1)适合任意尺寸的网络,不论是有向图还是无向图还是带权图。 (2)本文提出的目标函数(objective function)同时考虑了网络局部特征和全局特征。 (3)提出一种边采样的算法,可以很好地解决SGD的效率问题。 (4)本文提出的网络表示方法十分高效,可以在小时范围内的单机节点上学习百万级顶点网络的表示。

LINE思考:

1.度数很低的顶点如何处理?      

这样的节点的邻居数量非常少,所以很难精确地推断它的表示,特别是基于二阶相似度的方法。    

 解决方案是通过添加更高阶的邻居扩展这些顶点的邻居,例如将节点邻居的邻居作为节点的邻居。LINE中只考虑向每个顶点添加二阶邻居,即邻居的邻居。顶点i与其二阶邻居j之间的权重被测量为:

2.新加入的顶点如何处理?    

新加入节点i与已有节点的连接已知的情况:可以得到经验分布p1(·,vi)和p2(·| vi),然后可以通过最小化下面的任一目标函数得到新节点的向量表示(已有节点的向量表示保持不变)

LINE总结

LINE这个模型就是把一个大型网络中的节点根据其关系的疏密程度映射到向量空间中去,使联系紧密的节点被投射到相似的位置中去,而在网络中衡量两个节点联系紧密程度一个重要的指标就是这两个节点之间边的权值。在建模的时候不仅仅只考虑了一阶的关系,即两个点之间直接有较大权值的边相连就认为它们比较相似;同时考虑了二阶关系,即两个点也许不直接相连,但是如果它们的一阶公共好友比较多那么它们也被认为是比较相似的。基于这两个角度的思考,提出了两个模型。并且针对这两个模型进行了优化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值