从图傅里叶变换到图卷积神经网络

Open Future

已于 2024-12-02 22:05:21 修改

阅读量1.1k

点赞数 17

分类专栏：图神经网络文章标签：深度学习神经网络人工智能

于 2024-02-21 13:58:16 首次发布

本文链接：https://blog.csdn.net/zerokusinage/article/details/136207461

版权

图神经网络专栏收录该内容

10 篇文章

订阅专栏

文章介绍了图傅里叶变换如何转化为图卷积，进而发展成为图卷积神经网络(GCN)的过程，涉及拉普拉斯矩阵、哈达玛积和深度学习中的参数化滤波器。重点讨论了如何通过切比雪夫多项式近似减少计算复杂度，以及GCN的传播公式和优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 图傅里叶变换
2. 图傅里叶变换到图卷积
3. 从图卷积到图卷积神经网络(GCN)

1. 图傅里叶变换

请参考文章

2. 图傅里叶变换到图卷积

有了图傅里叶傅里叶变换(Ggraph Fourier Transform，GTF)后，就可以把图从空域转化到频域分析。

对于图信号 $x_1$ 和 $x_2$ ，先使用图傅里叶变换把图信号从空域转换到频域:

$\hat{x_1}=V^T x_1 \\ \hat{x_2}=V^T x_2$

其中 $V$ 是由拉普拉斯矩阵 $L$ 的特征向量组成的特征矩阵，即 $V=[v_1, v_2, \dots, v_n]$ 。
然后再将从频域上将 $x_1$ 和 $x_2$ 进行哈达玛积(element-wise，逐元素相乘)

$\hat{x_1} \odot \hat{x_2}$

最后在把结果使用逆图傅里叶变换(Inverse Graph Fourier Transform，IGFT)转回到空域。

$(\hat{x_1} \odot \hat{x_2})$

这就是图卷积的定义:

$x_1*x_2=V (\hat{x_1} \odot \hat{x_2})=V( (V^Tx_1)\odot (V^T x_2))$

其中 $*$ 是卷积操作， $\odot$ 是哈达玛积(Hadamard 积，element-wise)

为什么是使用 Hadamard 积: Hadamard 积操作可以解释为两个图信号在每个基函数上的结合。举个例子， $x_{2_i}$ 和 $x_{1_i}$ 是 $x_2$ 与 $x_1$ 在第 i 个基上的系数，那么 $(x_1*x_2)_i=x_{1_i} \times x_{2_i}$ ，把所有基上的系数向量化组合后就是 Hadamard 积。

对图卷积操作进行进一步推导:

$\begin{aligned} x_1*x_2&=V( (V^Tx_1)\odot (V^T x_2))\\ &=V(\hat{x_1}\odot(V^Tx_2))\\ &=V(diag(\hat{x_1})V^Tx_2)\\ &=(V diag(\hat{x_1})V^T)x_2\\ &=(Vg_\theta V)x_2 \end{aligned}$

从这个式子可以看出，图卷积操作可以转换成图滤波操作，其中 $diag(\hat{x_1})$ 是滤波器，因此对于不同的图，需要不同的滤波器来进行滤波，以提取出有效的信息。

借助深度学习中卷积神经网络的做法:

把滤波器进行参数化，引入自适应的滤波器
引入激活函数，增加非线性表达

那么图卷积就变成了:

$\begin{aligned} &X'=\sigma(V\begin{bmatrix}\theta_1&&&\\&\theta_2&&\\&&\ddots&\\&&&\theta_N\end{bmatrix}V^\mathrm{T}X)\\ &=\sigma(Vdiag(\theta)V^TX)\\ &=\sigma(\Theta X)\\ \end{aligned}$

其中， $\sigma$ 是激活函数， $\theta=[\theta_1, \theta_2, \dots, \theta_n]$ 是需要学习的参数， $\Theta$ 是对应学习的图滤波器。 $X$ 是输入矩阵， $X^{'}$ 是输出矩阵。

3. 从图卷积到图卷积神经网络(GCN)

参数化后图卷积核有一些缺点:

需要对拉普拉斯矩阵进行谱分解来求，在 graph 很大的时候复杂度很高。另外，还需要计算矩阵乘积，复杂度为 O(n²)。
卷积核参数为 n，当 graph 很大的时候，n 会很大。

因此为了减小计算量，需要对图卷积进行近似(使用多项式来近似可以减少计算量)，由于图傅里叶变换是关于特征值(相当于普通傅里叶变换的频率)的函数， $g(\lambda_1), g(\lambda_2), \dots, g(\lambda_n)$ ，把特征值组成向量，就变成了 $g(\Lambda)$ , 然后使用 K 阶多项式进行近似:

$g_{\theta^{\prime}}(\Lambda)\approx\sum_{k=0}^K\theta_k^{\prime}\Lambda^k$

带入到卷积公式中有:

$\begin{aligned}g_{\theta^{\prime}}*x&≈ V\sum_{k=0}^K\theta_k^{\prime}\Lambda^kV^T{x}\\&=\sum_{k=0}^K\theta_k^{\prime}\left({V}\Lambda^k{V}^T\right)x\\&=\sum_{k=0}^K\theta_k^{\prime}\left({V}\Lambda{V}^T\right)^kx\\&=\sum_{k=0}^K\theta_k^{\prime}{L}^kx\end{aligned}$

这就可以看出，使用多项式进行近似后，就不需要做特征分解了，可以直接对拉普拉斯矩阵做变换，通过事先将拉普拉斯矩阵求出来，以及求出来 $L^k$ ，前向传播的时候，就可以直接使用，复杂度为 $O(Kn^2)$ 。

对于每一次拉普拉斯矩阵和相乘，对于节点 n，相当于从邻居节点传递一次信息给节点 n，由于连续乘以了 K 次拉普拉斯矩阵，那么相当于 n 节点的 k-hop 之内的节点能够传递信息给 n，因此，实际上只利用了节点的 K-Localized 信息

GCN 论文中使用的是切比雪夫多项式来近似计算:

$g_{\theta^{\prime}}(\Lambda)\approx\sum_{k=0}^{K}\theta_{k}^{\prime}T_{k}(\tilde{\Lambda}) ，$

其中 $\tilde{\Lambda}=\frac{2}{\lambda_{max}}\lambda-I_N,\theta'\in\mathbb{R}^K$ 为切比雪夫向量 $θ_k'$ 的第k个分量。

切比雪夫多项式使用递归定义: $T_k(x)=2xT_{k-1}(x)-T_{k-2}(x),T_0=1,T_1=x$ 。
带入卷积公式可得

$\begin{aligned}g_{\theta^{\prime}}*x&≈ V\sum_{k=0}^K\theta_k^{\prime}T_k(\tilde{\boldsymbol{\Lambda}})V^T\boldsymbol{x}\\&\approx\sum_{k=0}^K\theta_k^{\prime}\left(V T_k(\tilde{\boldsymbol{\Lambda}})V^T\right)x\\&=\sum_{k=0}^K\theta_k^{\prime}T_k(\tilde{\boldsymbol{L}})x\end{aligned}，$

其中 $\hat{L}=\frac{2}{\lambda_{max}}L-I_N$

为了进一步简化，考虑只从一阶邻居中获取信息，令 K=1， $\lambda_{max}=2$ (可证明拉普拉斯矩阵的特征值在[0, 2])，则图卷积可以进行一步化简为

$\begin{aligned}\boldsymbol{g}_{\boldsymbol{\theta}^{\prime}}*\boldsymbol{x}&\approx\boldsymbol{\theta}_0^{\prime}\boldsymbol{x}+\boldsymbol{\theta}_1^{\prime}\left(\boldsymbol{L}-\boldsymbol{I}_n\right)\boldsymbol{x}\\&=\boldsymbol{\theta}_0^{\prime}\boldsymbol{x}+\boldsymbol{\theta}_1^{\prime}\left(\boldsymbol{L}-\boldsymbol{I}_n\right)\boldsymbol{x}\\&=\boldsymbol{\theta}_0^{\prime}\boldsymbol{x}-\boldsymbol{\theta}_1^{\prime}\left(\boldsymbol{D}^{-1/2}\boldsymbol{A}\boldsymbol{D}^{-1/2}\right)\boldsymbol{x}\end{aligned}$
其中归一化拉普拉斯矩阵 $\tilde{L}=(\boldsymbol{D}^{-1/2}\boldsymbol{A}\boldsymbol{D}^{-1/2})$ 。由于拉普拉斯矩阵的特征值在[0, 2]之间，在反向传播时会导致梯度消失/梯度爆炸，因此使用一个trick，具体操作是用 $\tilde{A}=A+I_N$ ，这样特征值就从[0, 2]变成了[-1, 1]。

为什么特征值会影响反向传播: $\frac{∂ \sigma (LX)}{∂ X} =\frac{\partial\sigma}{∂ (LX)}⋅ \frac{∂ (LX)}{∂ X}=\frac{\partial\sigma}{∂ (LX)}⋅ \frac{∂ λ X}{∂ X}=λ\frac{\partial\sigma}{∂ (LX)}⋅ \frac{∂ X}{∂ X}=λ\frac{\partial\sigma}{∂ (LX)}$ 在反向传播时梯度会被特征值影响，因此把特征值稳定在[-1,1]之间可以缓解

进一步简化，令 ${\theta}_0^{\prime}=-{\theta}_1^{\prime}=\theta$ ，可得
$g_{\theta}*x=θ \tilde{L}x$
最后把这个公式推广到多通过(把不同通过的拼接成矩阵)就可以得到图卷积神经网络的传播公式
$\mathbf{H}^{l+1}=\sigma(\mathbf{D}^{-1/2}\tilde{A}\mathbf{D}^{-1/2}\mathbf{W}^{l}\mathbf{H}^{l})$ ,
其中 $W$ 可学习的参数( $\theta$ )，H是隐藏层(当l=0时， $H^0$ 是输入的特征矩阵X), $\sigma$ 是激活函数。