SDNE基本思想
SDNE(Structural Deep Network Embedding )主要目标是保持网络的一阶相似性和二阶相似性。(相似性定义参考 【Graph Embedding】LINE的原理、核心代码及其应用)
一阶相似度指:具有边相连的节点的Embedding向量具有相似性。主要反映了 Graph 的局部特征
二阶相似性指:拥有共同邻居但不是直接相连的两个顶点之间应该具有相似性。反映了 Graph 的全局特征。
SDNE模型的结构图如下:
模型主要包括两个部分:无监督和有监督部分。其中,无监督部分是一个深度自编码器用来学习二阶相似度,监督部分是一个拉普拉斯特征映射捕获一阶相似度。
二阶相似度(无监督)
如上图所示,这是一个自编码器,没有标签数据,是一种无监督学习。
模型的输入 x i , x_i, xi,本质是节点 i i i 的邻接矩阵,则输入每一个 x i x_i xi都包含了顶点 i i i的邻居结构信息。因此结构相似的顶点可以学习到相似的 embedding 向量,不断优化代价函数来捕捉全局结构特征,即二阶相似度。
输出是 x ^ i \hat x_i x^i,是重构后的邻接矩阵。其目标是:
f ( x ) ≈ x f(x) \approx x f(x)≈x
所以,二阶相似度损失函数定义为:
L = ∑ i = 1 n ∣ ∣ x i ^ − x i ∣ ∣ 2 2 \mathcal{L}=\sum_{i=1}^n{||\hat{x_i}-x_i||^2_2} L=i=1∑n∣∣xi^−xi∣∣22
由于网络的稀疏性,邻接矩阵中的0元素远多于非0元素,使用邻接矩阵作为输入的话要处理很多0,这样就做了太多无用功了。为了解决这个问题,对损失函数做了改进如下:
L 2 n d = ∑ i = 1 n ∣ ∣ ( x i ^ − x i ) ⊙ b i ∣ ∣ 2 2 = ∣ ∣ X ^ − X ⊙ B ∣ ∣ F 2 \mathcal{L_{2nd}}=\sum_{i=1}^n||(\hat{x_i}-x_i)\odot{b_i}||^2_2=||\hat{X}-X\odot{B}||^2_F L2nd=i=1∑n∣∣(xi^−xi)⊙bi∣∣22=∣∣X^−X⊙B∣∣F2
其中 ⊙ \odot ⊙是哈马达乘积,表示对应元素相乘。 邻接矩阵中的0对应 b = 1 b=1 b=1, 非0元素的 b > 1 b>1 b>1,这样的目的是对于有边连接的节点增加惩罚。可以理解为对有边连接的节点赋予更高权重。
在模型中,从