论文笔记-Attributed network embedding for learning in a dynamic environment

 

Li J , Dani H , Hu X , et al. [ACM Press the 2017 ACM - Singapore, Singapore (2017.11.06-2017.11.10)] Proceedings of the 2017 ACM on Conference on Information and Knowledge Management - CIKM \"17 - Attributed Network Embedding for Learning in a Dynamic Environment[J]. 2017:387-396.

1摘要

网络嵌入技术利用图中节点的近邻性学习每个节点的低维向量表示。学习生的嵌入表示可以用于提高下游图应用的性能,如节点分类、图聚类和链路预测。然而现在当前大部分研究工作主要是处理简单网络和静态网络。然而,现实中网络结构通常会随意时间而进行演化更新,也就是边与节点的增加或删除。在现实世界网络中,网络中节点往往会存在相关的属性来描述该节点的特征,而随着时间演化更新,这些节点的属性也会发生变化。这就需要一种有效的图嵌入技术来处理图结构与属性的模式演化。而需要解决动态属性图存在的问题,当前将会面临如下两个挑战:1 构建的网络或是相关节点属性有可能有噪声或是不完全的,因此需要一个有效的图表示学习方法来捕捉节点的属性与之间的关联;2 因此在动态环境下,属性图模型的结构和节点的属性都是随时间不断演化的,因此需要一个在线的图嵌入表示方法实时的学习动态属性图的嵌入表示。针对以上挑战,本文提出了针对动态属性图的嵌入表示框架-DANE,首先,该框架通过离线的方法实现综合的嵌入表示,然后利用矩阵摄动理论以在线的方式来维护最终的嵌入表示。最近,在真实数据集和合成数据集中进行了大量的实验验证本文提出的框架的有效性。

2引言

属性网络建模已经有众多领域中被官方应用,从社交媒体网络、学术网络到蛋白质相互作用网络等。传统的平面网络主要是通过节点对之间的关系来刻画信息的关联,重点是刻画图模型的结构信息,而实体本身会有一些附加属性来对网络中实体进行特征表示。例如,在科学协作网络中,可以通过研究者的研究兴趣对其进行区分,而研究兴趣只是研究者实体的一个属性。在社交网络中,用户与他人进行互动交流时,不仅仅是在两个用户之间加一个连接关系,它们交流的内容等属性也是对关系的一种刻画。当前已经有一些研究工作[35,38]研究了两个相关联的实体之间的属性具有强关联。这种强相关性的根因可以归结为社会影响和社会科学理论中的同质效应[30,31]。此外,许多实际应用,如节点分类、社区检测、主题建模和异常检测[18、22、24、28、51],都通过对这些相关性进行建模而表示出显著的性能提升。

近年来,网络嵌入表示因其实现简单,性能优越的特点引起了广泛的关注。它的基本思想是在嵌入表示的向量空间中尽可能的保持节点之间的邻接关系,这可以有效的提高节点分类、链路预测和社区检测等应用。然而当前这些方法大部分都是针对平面图进行处理,而忽略了节点属性,引入节点的属性可以有效提高嵌入学习的效果,尤其是稀疏图,这主要是节点属性通常是一些用来描述节点属性与特征的属性。别外,当前处理的网络都是静态网络,针对动态网络进行嵌入学习的方法还很少。为此,本文提出提出了一种处理动态属性网络的有效嵌入学习方法。

尽管动态属性图在现实世界中应用广泛,但是针对动态属性图的分析与挖掘相关工作确比较少。动态属性图嵌入技术依然具有非常大的挑战,主要原因有:1 虽然网络结构和节点属性是两个不同的表示形式,但是它们之间又存在着内在的相关性,同时原始数据本身可能是有噪声或是不完全的,那么这就需要一个有效的图嵌入技术既能抗噪,又能捕获属性与结构各自的特征和它们之间的关联;2. 对于动态图每一次都重新训练嵌入表示是非常耗时的,因此需要一种增量的在线嵌入表示学习方法满足应用的实时性。

为了处理前面提到的问题,本文提出了一种处理动态属性图的嵌入框架。本文的主要贡献如下。

1 问题的形式化描述。形式化定义了动态属性图嵌入的问题,利用了个离线模型学习当前图的嵌入表示,然后捕捉图的动态更新,增量实时的训练更新后的图嵌入表示。

2 算法与分析。本文提出了一种处理动态属性图嵌入的新框架-DANE,具体来说,首先离线的学习图的节点与属性的交互的嵌入表示以此作为基础。然后,针对图的动态更新,根据图的矩阵摄动理论提出一个增量式的在线嵌入表示学习模型。理论上分析了算法的复杂性,并证明了其相对于离线方法的优越性。

3 评估。在合成数据集与真实数据集中与其他基线方法和离线方法进行了对比分析,实验表示本文提出的方法在聚类和分类性能上都显示优于其他方法。

  • 3问题形式化定义

首先简单说明一下本文中所使用的符号表示,如下表所示。

表示每t个时间步的属性图, 表示属性图上的n个节点,邻接矩阵 表示属性图的结构, 表示节点的d维属性, 表示整个图的属性矩阵, 和  表示两时间步之间属性图中的结构和属性的变化。

问题1定义的是离线属性图表示学习。

问题2描述的是基于在线学习动态图嵌入表示。

四 DANE框架

节首先介绍处理静态属性图的离线模型,该模型通过对属性与结构进行一致表示来解决问题1。然后,介绍了一种能实时处理动态属性图的在线模型。最后分析了在线模型的计算复杂性。

4.1 DANE离线模型

在属性图中,网络结构和节点属性是独立表示的。数据的不完全和存在噪声的问题为统一表示网络结构和节点属性带来了巨大的挑战。例如,在社交网络中,通常一个用户仅具有有限的边,图嵌入表示主要是通过节点间的边来生成近邻关系,网络的稀疏性会导致图嵌入的并不能有效的挖掘图中顶点之间的关系。显示,节点属性描述节点的特性,可以从另一个角度来补偿仅考虑网络结构信息带来的问题,从来进一步提高图嵌入表示的效果。因此,有效的考虑网络结构和节点属性的嵌入表示成为了一个有效解决以上问题的解决方法。

表示时间步t的属性图的邻接矩阵, 是一个对解矩阵,那么 是一个拉普拉斯矩阵。根据谱理论,将网络中的每个节点映射到一个k维嵌入空间,可以大幅度降低网络中的噪声。嵌入表示就是最小化损失函数 。该目标函数保证了在图中相邻的节点在嵌入向量空间中也尽可能的靠近。该问题可以归结为解决如下一般性特征问题 ,其中 是对应的特征值的特征向量。显然,对于特征值为0只有唯一的特征向量 1。显然K-维网络结构嵌入表示是由从a2开始的top-k个特征向量得到的(这么说好像不是特别对啊,嵌入应该由所有特征表示的吧)。为了便于表述,在接下来的部分中,把这k个特征向量和它们的特征值称为top-k个特征向量和特征值。类似于结构嵌入,利用这么方法同样能减少节点属性的噪音。具体的,首先标准化每个节点的属性,计算其两两的余玄相似度,并基于此构建了属性矩阵 ,之后可以得到矩阵 的top-k个特征向量

通过计算结构与节点属性的中间嵌入表示来解决噪声数据的问题。本文希望通过这种蹭嵌入表示找到一种最终的满足结构与属性关联的嵌入表示,然而网络结构与属性是独立表示的。为了捕捉网络结构与节点属性之间的关联,并学习有效的嵌入表示,可以网络结构与节点属性为目标函数,最大该目标函数。  是表示t时间步的邻接矩阵,用来表示网络结构,  表示t时间步的节点属性矩阵,用来表示节点属性。  和  表示它们所对应的嵌入表示,那么,最大化网络结构与节点属性的就可以求下式的最优化问题。

  是拉格朗日子,通过求导可以求出最优解。

最后,为了得到一种有效的整合网络结构与属性的嵌入表示,从上面结果取top-l个特征向量,并把它们堆叠到一起。

假定映射矩阵  与top-l特征向量是关联的,那么最终的嵌入表示可以通过如下计算:

4.2 DANE在线模型

在实际应用中,属性网络通常具有很强的动态演化特性。例如,在社交媒体网络中,用户的社交关系是在不断的变化的,因此用户的发布行为会随着其社交关系的变化而变化。对于静态嵌入表示模型,每一个时间步都需要从头开始训练,这样是非常耗时且每难扩展到大数据集应用中。因此一个有效的在线嵌入学习模型成为迫切的需求。

这里使用  和  表示两时间步之间属性图中的结构和属性的扰动,也就是两个图快照之间的差异。

邻接矩阵A和节点属性矩阵X的对角矩阵和拉普拉斯矩阵也会有相应的演化:

如之前讨论的,离线的属性网络嵌入学习问题可以归结为广义特征值问题。离线模型主要是寻找广义特征值中最小特征值对应的特征向量。因此,关键思想是通过实时更新top-l个特征值和特征向量实现对嵌入表示结果的实时更新。这里使用网络拓扑结构为例来说明是本文提出的在线嵌入表示学习方法。通过矩阵摄动理论,得到如下动态属性网络嵌入表示学习公式:

对于特殊的eigen对  ,有如下公式:

现在问题就变成了如何通过扰动矩阵  和  来计算第i个eigen对的更新  。

首先是计算特征值的差异  。

通过展开如上公式得到:

  和  这些高阶项对广义特征的影响有限,因此可以移除这些高阶项。由于  ,得到如下公式:

两边都乘  ,变成:

由于拉普拉斯矩阵  和对角矩阵  是对称的,得到:

因此,公式8可以变成:

特征值的差异  可以表示为:

推论3.2   且 

证明:t时间步的图快照的邻接矩阵对角矩阵  和拉普拉斯矩阵  是对称的同样也是埃尔米特矩阵(复对称共轭矩阵)。拉普拉斯矩阵  是一个正定矩阵,因此推论3.2得证。

因此,特征值的差异  可以表示为:

B-计算特征向量ai的更新 

通常两个时间步之间的网络结构的演化是平滑的,我们假定特征向量的变化  在列空间中,这些列空间是由top-k个t时间步的特征向量组成,表示为  ,其中  表示特征向量  对新每i个特征向量的贡献的权值。下面介绍如下来评估这些权值。

把公式:

代入到公式7中,并且根据公式:

可以得到如下公式:

  (13)

对公式13两边都乘以  并基于推理3.2的标准正交属性,得到如下公式:

权值  可以表示为:

在特征向量更新之后,依然需要对于新的特征向量设定正交条件,因此需要满足 ,通过对公式的展开,并移除二阶和三阶项,得到如下公式:

得到   的解如下公式:

在得到 的的表达之后,特征向量 的更新可以表示成:

因此,特征对  可以通过公式12和公式18进行更新,更新过程如算法1所示:

首先,算法的输入是top-k个特征对,可以通过标准方法计算得到,如幂迭代和Lanczos方法,另一个输入是对角矩阵和拉普拉斯矩阵的更新。对于top-k个特征对在第二行更新特征值,在第三行更新特征向量。

同样的,通过算法1节点属性也可以以在线方式进行更新。   表示t时刻网络结构和节点属性的嵌入表示。在下一个时间步t+1,首先使用在线模型更新图嵌入表示,然后通过关联最大化得到最后的嵌入表示结果  。

C 时间复杂度分析

证明就不详细说了,想了解的可以参考原文。

5 实验

在本节点,实验评估了本文提出的DAMA框架在动态属性图环境中有效性和执行效率。主要试图回答如下两个问题::(1)有效性:DANE如何针对不同的学习任务获得不同的有效性?(2)效率:相比其他表示学习算法,我们的算法的效率有多快? 有详细介绍实验结果之前,首先介绍实验中使用的数据集和实验环境设置。

5.1 数据集

主要是使用了四个数据集,分别是BlogCatalog, Flickr, Epinions和DBLP。BlogCatalog和Flickr是静态属性图数据集,为了实现动态环境,每一个时间步随机增加0.1%的新边和改变0.1%的属性值。另外两个数据值本身就是真实的动态属性图。

5.2 实验设置

图嵌入表示的两种有效的应用会别是图聚类和节点分类。首先,验证了DANE方法在网络聚类应用中有的效性,其中使用了两个图聚类的度量指标聚类精度(ACC)和标准互信息(NMI)对图嵌入表示进行衡量。在得到属性网络中节点的嵌入表示之后,执行k-means聚类,由于其会因为初始化不同而陷入局部最优,因此重复执行10次取平均结果。具体来说就是通过10倍交叉验证来分割节点的嵌入表示,然后90%的节点通过logistic回归来训练分类模型,10%的节点用来作为测试集。整个过程重复10次。评价指标有三个分别是,分类精度,F1-micro和F1-macro。嵌入表示的维度最优化问题至今依然是个开放问题,这里将其设为{10,20,…,100}.

主要的对比方法有如下:

DeepWalk

LINE

DANE-N只包含网络结构信息的DANE方法

DANE-A只对节点属性进行表示学习的DANE方法

CCA

LCMF

LANE

DANE-O 离线DANE算法

由于DeepWalk、LINE、CCA、LCMF、LANE和DANE-O都只能处理静态图,为了与DANE框架在动态图上进行有效对比,在每个时间步中都重新学习属性图的嵌入表示,并与DANE进行对比。

5.3 网络聚类

本小节主要是评估DANE方法与其他基线方法在网络聚类应用中的有效性。根据属性图不断演化的事实,比较了所有时间步的平均聚类性能。得到如下分析结果:

DANE和它的离线模型DANE-O在动态属性图中表示出优于其他所有基线方法的性能。

DANE和所有处理属性图的方法均优于只处理网络拓扑的嵌入学习方法,可以看出节点属性作为网络结构的补充,在图表示学习中可以有效的提升嵌入学习结果并提高下游应用的性能。

DANE和DNAE-O的整体性能基本相同,也说明了即使引入了矩阵扰动来更新图嵌入表示,本身也没有损失太多的信息。

5.4节点分类

观察到的结果基本上与聚类相似。

5.5 在线模型

为了有效的评估提出的DANE框架的有效性,将DANE与CCA、LCMF、LANE和DANE的离线版本DANE-O进行了比较,由于这些基线方法并不是为处理动态属性图而设计的,因此需要在每一个时间步都重新计算,需要计算每一步的累计时间。如图2所示,DANE的执行时间比所有其他方法都要短。为了进一步比较DANE和DANE-O的加速度,如果图3所示,当嵌入表示的维度较小时,DANE有较好的加速,而当嵌入维度逐渐增加时,DANE的加速比有所下降但是仍然明显快于DANE-O。

 

 

 

 

 

 

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值