《Graph Representation Learning》Chapter3-Neighborhood Reconstruction Methods

Neighborhood Reconstruction Methods

在这里插入图片描述

在正文开始之前,有必要先了解一下节点嵌入问题。如上图所示,节点嵌入的目标是学习一个编码器 E N C ( ⋅ ) ENC(·) ENC() 将节点映射到低维嵌入空间中,然后通过其在嵌入空间中的距离来反映原始图中节点的相对位置。

An Encoder-Decoder Perspective

在这里插入图片描述

上图中,编码器将节点 u u u 映射到低维嵌入 z u z_u zu,然后通过解码器使用 z u z_u zu 来重建 u u u 的局部邻域信息。下面将在类似的 Encoder-Decoder 框架下探讨节点嵌入问题。

The Encoder

最基本的编码器可表示为: E N C : V → R d ENC : V \rightarrow \R^d ENC:VRd,其使用每个节点的 ID 生成节点嵌入。

浅嵌入(shallow embedding)方法: E N C ( v ) = Z [ v ] , Z ∈ R ∣ V ∣ × d ENC(v) = \mathbf{Z}[v], \mathbf{Z} \in \R^{|V| \times d} ENC(v)=Z[v],ZRV×d,该编码器的功能只是基于节点 ID 的嵌入查找。

The Decoder

成对(pairwise)解码器: D E C : R d × R d → R + DEC : \R^d \times \R^d \rightarrow \R^+ DEC:Rd×RdR+ D E C ( E N C ( u ) , E N C ( v ) ) = D E C ( z u , z v ) ≈ S [ u , v ] DEC(ENC(u),ENC(v)) = DEC(\mathbf{z}_u,\mathbf{z}_v) \approx \mathbf{S}[u,v] DEC(ENC(u),ENC(v))=DEC(zu,zv)S[u,v] S [ u , v ] \mathbf{S}[u,v] S[u,v] 可看作节点之间基于图的相似性度量(真实值),成对解码器可以解释为预测节点对之间的关系或相似性。将成对编码器用于一对嵌入 ( z u , z v ) (\mathbf{z}_u,\mathbf{z}_v) (zu,zv) 会重建节点 u u u v v v 之间的关系,目标就是优化编码器和解码器以最小化重建损失。

Optimizing an Encoder-Decoder Model

实现上述目标的标准做法是最小化一组训练节点对 D D D 上的经验损失 L   ( L = ∑ u , v ∈ D l ( D E C ( z u , z v ) , S [ u , v ] ) ) \mathcal{L} \space (\mathcal{L}=\sum_{u,v\in D}\mathcal{l}(DEC(\mathbf{z}_u,\mathbf{z}_v),\mathbf{S}[u,v])) L (L=u,vDl(DEC(zu,zv),S[u,v]))

Overview of the Encoder-Decoder Approach

在这里插入图片描述

上表是一些著名的浅层嵌入方法总结。编码器-解码器框架的主要好处是:允许人们根据解码器函数、图的相似性度量和损失函数来简介的定义和比较不同的嵌入方法。

  • 分割线以上的方法被称为矩阵分解方法,可以使用分解算法(例如,奇异值分解 (SVD) )来最小化他们的损失函数。通过将节点嵌入 z u ∈ R d \mathbf{z}_u \in \R^d zuRd 堆叠到矩阵 Z ∈ R ∣ V ∣ × d \mathbf{Z} \in \R^{|\mathcal{V}| \times d} ZRV×d 中,可将重建目标写为 L ≈ ∣ ∣ Z Z T − S ∣ ∣ 2 2 \mathcal{L} \approx ||\mathbf{Z}\mathbf{Z}^{T}-\mathbf{S}||^2_2 L∣∣ZZTS22,它对应于节点间相似度矩阵 S 的低维因式分解。
  • 随机游走嵌入不直接重建邻接矩阵 A 或 A 的某些确定性函数,而是优化嵌入以对随机游走的统计数据进行编码。 p G ( v ∣ u ) \mathcal{p_G(v|u)} pG(vu) 是在从 u 开始的长度为 T 的随机游走中访问 v 的概率,T 通常定义在 2-10 之间,随机且不对称。DeepWalk 使用分层 softmax来逼近目标,node2vec 则采用噪声对比方法。
  • Large-scale information network embeddings (LINE):结合两个编码器-解码器目标,显式地重建一阶和二阶邻域信息来代替随机游走。
  • Additional variants of the random-walk idea:随机游走方法的好处之一是可以通过偏置或修改随机游走来扩展和修改它。
Random walk methods and matrix factorization

随机游走方法实际上与矩阵分解方法密切相关。假设我们定义以下节点间相似度值矩阵:
S D W = log ⁡ ( v o l ( V ) T ( ∑ t = 1 T P t ) D − 1 ) − log ⁡ ( b ) 、 P = D − 1 A ( ∑ t = 1 T P t ) D − 1 = D − 1 2 ( U ( ∑ t = 1 T Λ t ) U T ) D − 1 2 \mathbf{S}_{DW} = \log \left(\frac{vol(\mathcal{V})}{T} \left(\sum_{t=1}^T \mathbf{P}^t \right)\mathbf{D}^{-1}\right)-\log (b)、\mathbf{P}=\mathbf{D^{-1}A}\\ \left(\sum_{t=1}^T \mathbf{P}^t \right)\mathbf{D}^{-1} = \mathbf{D}^{-\frac{1}{2}} \left(\mathbf{U} \left(\sum_{t=1}^T \mathbf{\Lambda}^t \right)\mathbf{U}^{T}\right) \mathbf{D}^{-\frac{1}{2}} SDW=log(Tvol(V)(t=1TPt)D1)log(b)P=D1A(t=1TPt)D1=D21(U(t=1TΛt)UT)D21
其中 U Λ U T = L s y m \mathbf{UΛU}^T = \mathbf{L}_{sym} UΛUT=Lsym 是对称归一化拉普拉斯算子的特征分解。在这种情况下,DeepWalk 学习到的嵌入 Z 满足 Z Z T ≈ S D W \mathbf{ZZ^T \approx S}_{DW} ZZTSDW

Limitations of Shallow Embeddings

  1. 浅嵌入方法在编码器中的节点之间不共享任何参数,因为编码器直接优化每个节点的唯一嵌入向量。参数共享的缺乏在统计上和计算上都是低效的。
  2. 它们没有利用编码器中的节点特征。
  3. 浅嵌入方法本质上是转导的(transductive),这些方法只能为训练阶段存在的节点生成嵌入,此限制阻止浅嵌入方法在训练后泛化到看不见的节点。
Tip:

Inductive learning 中文意为归纳式学习,它在训练过程中只在训练集上训练,完全不知道测试集的数据内容,模型训练完毕后,将其应用到测试集上,其具有一定的泛化能力。

Transductive learning 中文意为直推式学习,它在训练过程中已经知道测试集的数据,尽管没有标签,但是可以从其特征分布中学到一些额外的信息,可以增加模型的效果,但这意味着有新的样本加入就需要重新训练。

L. Graph representation learning[M]. Morgan & Claypool Publishers, 2020.*

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值