Adaptive Graph Encoder for Attributed Graph Embedding 阅读笔记

最新推荐文章于 2023-02-03 13:34:22 发布

NYSDY

最新推荐文章于 2023-02-03 13:34:22 发布

阅读量1.2k

点赞数 3

分类专栏：论文阅读笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43809143/article/details/108384679

版权

论文阅读笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

我的博客链接

0. 总览

0.1 文章是关于什么的？（what？）

图卷积网络，属性图嵌入，自适应学习，拉布拉斯平滑

0.2 要解决什么问题？（why？|challenge）

已经存在的GCN-based 模型有三个主要缺陷：

作者实验显示图卷积网络的滤波器和权重矩阵的纠缠会损害性能和鲁棒性。
作者表明在这些方法中的图卷积滤波器是广义拉普拉斯平滑滤波器的特例，但它们并没有保留最佳的低通特性。
现有算法的训练目标通常是回复邻接矩阵或特征矩阵，而这些矩阵与现实应用不总是是一致的。

0.3 用什么方法解决？（how？）

作者提出了一个自适应图编码 Adaptive Graph Encoder (AGE)的属性图嵌入框架：

为了更好地避免节点特征中的高频噪音，作者首次应用了精心设计的拉普拉斯平滑滤波器。
AGE采用自适应编码器，该编码器可以迭代地增强滤波后的功能，以实现更好的节点嵌入。

0.4文章有什么创新？

上述方法即为创新点。

0.5 效果如何？

AGE超过最好的图嵌入模型在节点聚类和链接预测任务上。

0.6 还存在什么问题？

拉普拉斯平滑滤波器：设计的滤波器 $\mathbf{H}$ 用作低通滤波器，以对特征矩阵 $\mathbf{X}$ 的高频分量进行去噪。平滑后的特征矩阵 $\tilde{\mathbf{X}}$ 被用作自适应编码器的输入。
自适应编码器：为了获得更具代表性的节点嵌入，该模块通过自适应选择高度相似或不相似的节点对来构建训练集。然后以监督的方式训练编码器。

2.1 拉普拉斯平滑滤波器

图学习基本假设：图上的邻近节点应该相似，因此，节点特征在图流形上应该是平滑的。

2.1.1 平滑信号

为了衡量信号 $x$ 的平滑程度，计算图的Rayleigh quotient（瑞利商）：
$R(\mathrm{L}, \mathbf{x})=\frac{\mathbf{x}^{\top} \mathbf{L} \mathbf{x}}{\mathbf{x}^{\top} \mathbf{x}}=\frac{\sum_{(i, j) \in \mathcal{E}}\left(x_{i}-x_{j}\right)^{2}}{\sum_{i \in \mathcal{V}} x_{i}^{2}}$

该商实际上是 $x$ 的标准化方差得分。如上所述，平滑信号应在相邻节点上分配相似的值。因此，具有较低瑞利商的信号被假定为更平滑。

考虑图的拉普拉斯特征分解： $\mathbf{L}=\mathbf{U} \mathbf{\Lambda} \mathbf{U}^{-1}$ , $\mathbf{U} \in \mathbb{R}^{n \times n}$ 组成特征向量， $\Lambda=\operatorname{diag}\left(\lambda_{1}, \lambda_{2}, \cdots, \lambda_{n}\right)$ 是特征值的对角矩阵。所以特征向量 $u_i$ 的平滑为：
$R\left(\mathbf{L}, \mathbf{u}_{i}\right)=\frac{\mathbf{u}_{i}^{\top} \mathbf{L} \mathbf{u}_{i}}{\mathbf{u}_{i}^{\top} \mathbf{u}_{i}}=\lambda_{i}$

该等式表示更平滑的特征向量与较小的特征值相关联，这意味着频率较低。

因此，作者基于上述两个等式创造出如下信号 $x$ :
$\mathbf{x}=\mathbf{U p}=\sum_{i=1}^{n} p_{i} \mathbf{u}_{i}$

$p_i$ 是特征向量 $u_i$ 的系数。

至此， $x$ 的平滑实际上是：
$R(\mathbf{L}, \mathbf{x})=\frac{\mathbf{x}^{\top} \mathbf{L} \mathbf{x}}{\mathbf{x}^{\top} \mathbf{x}}=\frac{\sum_{i=1}^{n} p_{i}^{2} \lambda_{i}}{\sum_{i=1}^{n} p_{i}^{2}}$

因此，为了获得更平滑的信号，我们的滤波器的目标是在滤除高频分量的同时保留低频分量。由于其高计算效率和令人信服的性能，拉普拉斯平滑滤波器[28]通常用于此目的.

2.1.2 广义拉普拉斯平滑滤波器

广义拉普拉斯平滑滤波器被定义为：
$\mathbf{H}=\mathbf{I}-k \mathbf{L}$

$k$ 是一个实值。

使用 $\mathbf{H}$ 作为滤波器矩阵，被过滤的信号 $\tilde{\mathbf{x}}$ 为：
$\tilde{\mathbf{x}}=\mathbf{H x}=\mathbf{U}(\mathbf{I}-k \mathbf{\Lambda}) \mathbf{U}^{-1} \mathbf{U} \mathbf{p}=\sum_{i=1}^{n}\left(1-k \lambda_{i}\right) p_{i} \mathbf{u}_{i}=\sum_{i=1}^{n} p^{\prime} i \mathbf{u}_{i}$
因此，为了实现低通滤波，频率响应函数1-𝑘𝜆应该是一个减量和非负函数。堆叠𝑡Laplacian平滑滤波器，我们将滤波后的特征矩阵表示为：
$\tilde{\mathbf{X}}=\mathbf{H}^{t} \mathbf{X}$

注意到，滤波器中是没有参数的

2.1.3 k的选择

在实际中，使用重归一化技巧： $\tilde{A}=I+A$ ，作者设计一个对称归一化图拉普拉斯：
$\tilde{\mathbf{L}}_{s y m}=\tilde{\mathbf{D}}^{-\frac{1}{2}} \tilde{\mathbf{L}} \tilde{\mathbf{D}}^{-\frac{1}{2}}$

其中 $\tilde{\mathbf{D}}$ 和 $\tilde{\mathbf{L}}$ 分别是与 $\tilde{\mathbf{A}}$ 相对应的度矩阵和拉普拉斯矩阵

然后滤波器变成：
$\mathbf{H}=\mathbf{I}-k \tilde{\mathbf{L}}_{s y m}$

注意到，这里如果取 $k = 1$ ，则滤波器变成GCN滤波器。

为了选择最佳 $k$ ，应该仔细地发现特征值 $\tilde{\Lambda}$ 的分布（从 $\tilde{\mathbf{L}}_{s y m}=\tilde{\mathbf{U}} \tilde{\Lambda} \tilde{\mathbf{U}}^{-1}$ 的分解获得）。

$\tilde{x}$ 的平滑为：
$R(\mathrm{L}, \tilde{\mathrm{x}})=\frac{\tilde{\mathbf{x}}^{\top} \mathrm{L} \tilde{\mathbf{x}}}{\tilde{\mathbf{x}}^{\top} \tilde{\mathbf{x}}}=\frac{\sum_{i=1}^{n} p_{i}^{2} \lambda_{i}}{\sum_{i=1}^{n} p_{i}^{2}}$

因此， $\prime^2$ 随着 $\lambda_i$ 增加应当减少。作者表示最大特征值为 $\lambda_{max}$ 。
$\lambda_{\max }$ 就不能滤除所有高频部分，
$\lambda_{\max }$ ，滤波器不是一个低通滤波器在 $\left(1 / k, \lambda_{\max }\right]$ 上，因为这段区间中， $\prime^2$ 随着 $\lambda_i$ 增加而增加。

2.2 自适应编码

对于属性图嵌入任务，两个节点之间的关系至关重要，这要求训练目标是合适的相似性度量。作者认为GAE方法选用邻接矩阵作为节点对的真实标签仅仅记录了一跳的结构信息，这远远不够。同时，平滑特征或经过训练的嵌入的相似度更加准确，因为它们将结构和特征融合在一起。为此，作者自适应地选择相似度高的节点对作为正训练样本，而相似度低的节点对作为负训练样本。

节点嵌入通过被过滤的节点特征线性编码为：
$\mathbf{Z}=f(\tilde{\mathbf{X}} ; \mathbf{W})=\tilde{\mathbf{X}} \mathbf{W}$

$\mathbf{W}$ 是一个权重矩阵。
作者用了min-max scaler来讲嵌入缩减到[0,1]

作者使用余弦相似度来计算节点对的相似程度：
$\mathrm{s}=\frac{\mathrm{ZZ}^{\mathrm{T}}}{\|\mathrm{Z}\|_{2}^{2}}$

2.2.1训练负样例选择：

$r_{ij}$ 是节点对 $\left(v_{i}, v_{j}\right)$ 的相似度将排序rank。节点对 $\left(v_{i}, v_{j}\right)$ 的标签为：
$l_{i j}=\left\{\begin{array}{ll}1 & r_{i j} \leq r_{p o s} \\ 0 & r_{i j}>r_{n e g} \\ \text { None } & \text { otherwise }\end{array}\right.$

然后作者设置了正样例的最大rank值 $r_{pos}$ ，和负样例的最小rank值 $r_{neg}$ 。

用这种方法作者的训练集由 $r_{pos}$ 个正样例和 $n^2-r_{neg}$ 个负样例（因为负样例实际是远远多于正阳里的，所以这里作者生成的负样例比较多）

对于首次的训练集构建，由于encoder部分还未训练，直接应用平滑特征来计算初始的相似度矩阵：
$\mathrm{S}=\frac{\tilde{\mathbf{X}} \tilde{\mathbf{X}}^{\top}}{\|\tilde{\mathbf{X}}\|_{2}^{2}}$
在每个epoch中，作者随机采样 $r_{pos}$ 个负样例来平和正负样例的数量。

作者采用交叉熵损失：
$\mathcal{L}=\sum_{\left(v_{i}, v_{j}\right) \in O}-l_{i j} \log \left(s_{i j}\right)-\left(1-l_{i j}\right) \log \left(1-s_{i j}\right)$

2.2.2 阈值更新

受课程学习(curriculum learning)理念的启发，作者针对 $r_{pos}$ 和 $r_{neg}$ 设计了一种特定的更新策略，以控制训练集的大小。

在训练过程开始时，会为编码器选择更多样本以找到粗糙的聚类模式。之后，将保留较高置信度的样本以进行训练，从而迫使编码器捕获精炼的模式。实际上，随着训练过程的进行， $r_{pos}$ 减小而 $r_{neg}$ 线性增加。所以作者设计了不同的开始和结束时的阈值，并随着更新的次数 $T$ 来不断变化，以达到动态调整。
$\begin{array}{l}r_{p o s}^{\prime}=r_{p o s}+\frac{r_{p o s}^{e d}-r_{p o s}^{s t}}{T} \\ r_{n e g}^{\prime}=r_{n e g}+\frac{r_{n e g}^{e d}-r_{n e g}^{s t}}{T}\end{array}$
整个算法流程如下：