论文笔记----DeepWalk: Online Learning of Social Representations(DeepWalk:在线学习社会表征)

一.概述

本文主要介绍了DeepWalk,这是一种用于学习网络中顶点的潜在表示的方法。论文的引言部分介绍了提出DeepWalk的原因:它是针对网络表示学习的稀疏性提出来的,网络表示学习的稀疏性虽然可以设计高效的离散算法,但是对于统计学习任务有一定难度。DeepWalk使用从截断的随机游走中获得的本地信息,得出一个网络的社会表示。DeepWalk还具有可扩展的优点,能够适应网络的变化

二.研究问题

其次文章介绍了研究的问题,将社交网络的成员分为一个或多个类别的问题,由引言可知DeepWalk的输入输出情况:将图形作为输入,并生成潜在表征作为输出

其中的图定义为G=(V,E),其中V为图的点集,E为图的边集,给定一个部分标记的社交网络GL =(V,E,X,Y),其中X为一个|V|×s维的矩阵,|V|表示顶点的数量,s是代表每个顶点的向量的维数,所以X即为将每个顶点的向量结合在一起形成的矩阵。Y则是每个顶点的标注构成的矩阵。

文中提到,在学习一个社会表示的时候需要注意以下几个特点:

  • 1.适应性 - 真实的社交网络在不断发展;新的社会化关系进来之后,应该不需要再重新执行一次学习过程;
  • 2.社区意识 - 应该能够包含网络中同质节点或相似节点距离近的信息;
  • 3.低维 - 当标记的数据稀缺时,低维模型可以更好地泛化,并加快收敛和推理速度;
  • 4.连续的 - 我们需要潜在的表示来对连续空间中的部分社区成员进行建模;
    论文选取的是随机游走序列作为DeepWalk的输入,因为随机游走有两个优点:1.它的本地勘探很容易并行化;2.依靠短随机获得的信息遍历可以适应图结构中的细微变化,而无需全局重新计算。

语言建模的目的是估计在语料库中出现特定单词序列的可能性。针对一个自然语言处理问题,给定一个单词序列W1n=(w0,w1,…,wn),我们要用前n−1个单词来预测第n个单词,即所有训练题Pr(wn|w0, w1, · · · , wn-1)上最大化的问题。然而随着随机游走长度的增加,计算所需函数变得很困难,所以针对这个问题,语言建模有了新的改进:
1.使用单词来预测上下文而不是使用上下文来预测单词;
2.上下文由出现在给定单词右侧和左侧的单词组成;3.它消除了对该问题的排序约束。

所以最后问题优化为:
在这里插入图片描述

三.研究方法

论文在研究方法上主要讨论DeepWalk算法,与所有语言模型算法一样,所需的输入就是一个语料库和一个词汇表。在DeepWalk算法中,随机游走就是语料库图的顶点就是词汇表

DeepWalk算法包括两个主要部分;首先是随机游走发生器,其次是参数更新过程。随机游走生成器随机地选取输入图的顶点vi作为随机游走Wvi的下标,并生成固定长度的随机游走序列,每个节点生成长度为t的γ个随机游走序列。

算法如下所示。
在这里插入图片描述

其中3-9行是算法的核心,将每次循环视为对数据进行“传递”,并在此传递过程中对每个节点进行一次步行采样。
第3步对每个节点做γ次随机游走,第4步打乱网络中的节点,第5步以每个节点为根节点生成长度为t的随机游走,第7步根据生成的随机游走使用skip-gram方法对参数进行更新。

SkipGram是一种语言模型,可最大化出现在窗口w中句子中的单词之间的共现概率。首先将每个节点vi与其表示向量Φ一一映射,随后更新Φ的值。由于使用逻辑回归的方法,太耗时了,本文使用分层softmax的方法来训练。它可以使用哈夫曼编码来减少树中频繁元素的访问时间,通过为随机行走中的频繁顶点分配较短的路径,可以进一步加快训练过程。

社交网络中随机游走的顶点的频率分布和语言中的单词都遵循幂律,服从长尾分布,因此对Φ的更新影响会很稀疏,论文随后提出在多工作人员的情况下,可以使用异步版本的随机梯度下降来更新Φ。

随后论文基于BlogCatalog,Flickr,YouTube数据集进行了一系列实验,对比了SpectralClustering,Modularity,EdgeCluster,wvRN,Majority等基准(算法?),验证了论文所提出方法的优越性。

四.研究结果分析

论文对许多标签分类任务进行了全面评估,并分析了其在多个参数中的敏感性。
在BlogCatalog数据集的实验中,作者将BlogCatalog网络上的训练率(TR)从10%增加到90%。DeepWalk的性能始终优于EdgeCluster,Modularity和wvRN,当TR≥70%时,SpectralClustering更有竞争力。

在Flickr数据集实验中,作者将Flickr网络上的训练率(TR)从1%上升为10%。与上一个实验结果大致相同,在Micro-F1中,DeepWalk优于所有基准至少3%。在Macro-F1中,它的性能也相当好,只有在TR=2%时,SpectralClustering才稍稍强于DeepWalk。

在YouTube数据集实验中,由于YouTube网络比之前的两个要大得多,所以在这里作者无法使用SpectralClustering和Modularity,同时这也更接近真实世界。在这里作者将训练比率(TR)从1%提升至10%。结果表示DeepWalk明显优于其他三种基准,只是随着TR的增大,这种优势越来越小。

实验结果表示,该实验展示了使用社交表示学习进行多标签分类可能产生的性能优势,DeepWalk可以扩展到大图,并且在这种稀疏标记的环境中表现出色。

随后论文讨论了DeepWalk的参数化更改影响其对分类任务的性能的情况,对两个多标签分类任务(Flickr和BlogCatalog)进行了实验。作者分别更改了维数和采样频率,进行了对比实验。实验表明模型的性能取决于所看到的随机游走的次数,并且模型的适当维数取决于可用的训练示例,仅需少量的随机游走,我们就能够学习有意义的顶点潜在表示。

五.总结

这篇文章就是介绍了一种针对网络表示学习的稀疏性提出来的在线学习算法DeepWalk,这个算法能够建立一个图中结点的潜在表征,这些表征可以把社会关系编码到连续的向量空间中。算法的输入为一个图,输出为潜在表征。文章讨论了这个算法的问题定义、算法具体、算法实验、结果分析等内容,最终得出此算法在多标签分类任务中是有效的,而且具有可扩展性和可并行性的特点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值