【推荐系统】User-Item CF：LR-GCCF

最新推荐文章于 2024-08-14 11:24:59 发布

zz.YE

最新推荐文章于 2024-08-14 11:24:59 发布

阅读量688

点赞数 1

分类专栏： Paper 文章标签：推荐算法深度学习人工智能

本文链接：https://blog.csdn.net/zzy_NIC/article/details/128759505

版权

Paper 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

💡 本次解读的文章是 2020 年发表于 AAAI 的一篇基于图卷积神经网络的用户物品协同过滤推荐算法论文，这篇论文证实了去除图卷积网络中非线性模块会提升推荐性能，并基于此提出了一种专门针对用户-物品协调过滤（CF）的残差网络结构，缓解了具有稀疏用户-物品交互数据的图卷积聚合操作中的过平滑问题。

一、背景介绍

随着近年来图卷积神经网络技术（GCN）的发展，目前该项技术已经在多个领域取得了成效，在推荐系统领域，虽然基于 GCN 的推荐算法取得了一定的效果，但是本文认为基于 GCN 的协同过滤（CF）算法中的两个重要问题仍然没有被解决：1）GCNs 的邻域聚合遵循图卷积操作和非线性变换这两个步骤，其中，图卷积操作对聚合邻域信息和建模高阶图结构是有效的，但引入额外复杂度的非线性变换是否合适的问题有待讨论；2）目前大多数基于 GCN 的模型只能堆叠极少层（例如 2 层），这是因为图卷积操作是一种特殊的图拉普拉斯平滑，随着深度的增加，尤其是在稀疏图结构中，容易引起过度平滑效应，导致更高层的邻居对每个节点来说是不可区分的，而如何更好地对图结构进行建模的同时，避免这一过程中的过度平滑效应，仍然是一个值得思考的问题。

二、本文贡献

（1）从大多数图任务中分析了 CF 的独特性，并证明了去除非线性变换能提升推荐的性能；
（2）提出融入线性残差学习的 GCN 模型，捕捉低阶和高阶特征，以此缓解过度平滑问题。

三、LR-GCCF 模型

本文提出的 LR-GCCF 模型改进了现有基于 GCN 模型的不足，具有两个特点：1）在每一层的特征传播步骤中，使用简单的线性嵌入传播取代非线性变换；2）使用一种基于残差的网络结构来克服以往容易过平滑的局限性。

（1）二分图构建

在符号表示上， $\mathcal{U}$ 表示有 $M$ 个用户的用户集（ $|\mathcal{U}| = M$ ）， $\mathcal{V}$ 表示有 $N$ 个物品的物品集（ $|\mathcal{V}| = N$ ）， $\mathbf{R} \in \mathbb{R}^{M \times N}$ 表示用户对物品的评分矩阵，其中， $r_{ai}=1$ 表示用户 $a$ 喜欢物品 $i$ ，否则取零。对于给定的评分表，用户-物品二分图可表示为 $\mathcal{G} = <\mathcal{U} \cup \mathcal{V},\mathbf{A}>$ ， $\mathbf{A}$ 由评分矩阵 $\mathbf{R}$ 构建得到：
$\mathbf{A}=\left[\begin{array}{cc}\mathbf{R} & \mathbf{0}^{N \times M} \\ \mathbf{0}^{M \times N} & \mathbf{R}^{\mathbf{T}}\end{array}\right]$

（2）线性嵌入传播

令 $\mathbf{E} \in \mathbb{R}^{(M+N) \times D}$ 表示用户和物品的自由嵌入（与以节点特征作为固定输入数据的 GCN 任务不同，嵌入矩阵是未知的，需要在 LR-GCCF 中训练进行训练），矩阵的前M行，即 $\mathbf{E}[1:M]$ 为用户嵌入子矩阵， $\mathbf{E}[M+1:M+N]$ 为物品嵌入子矩阵，LR-GCCF 将嵌入作为输入：
$\mathbf{E}^{0} = \mathbf{E}$
在迭代的过程中，第 $k + 1$ 层的嵌入表示由第 $k$ 层的嵌入表示线性聚合获得：
$\mathbf{E}^{k+1} = \mathbf{S}\mathbf{E}^{k}\mathbf{W}^{k}$
其中， $\mathbf{S}=\tilde{\mathbf{D}}^{-0.5} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-0.5}$ 表示添加自环的标准化邻接矩阵， $\tilde{\mathbf{A}} = \mathbf{A} + \mathbf{I}$ 表示添加自环， $\tilde{\mathbf{D}}$ 是 $\tilde{\mathbf{A}}$ 的度矩阵， $\mathbf{W}^{k}$ 是可训练的线性变换参数。上述矩阵形式等价于将每个用户 $u$ 和每个物品 $i$ 的更新嵌入建模为：
$\left[\mathbf{E}^{k+1}\right]_u=\mathbf{e}_u^{k+1}=\left[\frac{1}{d_u} \mathbf{e}_u^k+\sum_{j \in R_u} \frac{1}{d_j \times d_u} \mathbf{e}_j^k\right] \mathbf{W}^k$
$\left[\mathbf{E}^{k+1}\right]_i=\mathbf{e}_i^{k+1}=\left[\frac{1}{d_i} \mathbf{e}_i^k+\sum_{u \in R_i} \frac{1}{d_i \times d_u} \mathbf{e}_u^k\right] \mathbf{W}^k$
其中， $d_{i}(d_{u})$ 是物品 $i$ （用户 $u$ ）的对角度， $R_{*}$ 是二分图 $\mathcal{G}$ 中节点（ $*$ ）的邻居。

（3）残差偏好预测

在深度为 $K$ 的模型中，第 $K$ 层的输出为 $\mathbf{E}^{K}$ （由上述传播过程求得），对于每个用户（物品）， $\mathbf{e}_u^K$ （ $\mathbf{e}_i^K$ ）捕获最多 $K$ 阶二分图相似性。之后，基于用户潜在向量和物品潜在向量之间的内积求取偏好 $\hat{r}_{ui}$ ：
$\hat{r}_{u i}=<\mathbf{e}_u^K, \mathbf{e}_i^K>$
在实际应用中，大多数基于 GCN 的变体和推荐模型，在 $K = 2$ 时取得了最好的性能。这些 GCN 变体和推荐模型的总体趋势是：性能随着 $K$ 从 0 增加到 2 而增加，随着 $K$ 继续增加，性能迅速下降，一个可能的原因是深层的节点嵌入趋于过度平滑，即它们更相似，而区别信息更少。基于此，本文引入了残差学习机制，将上述偏好公式进行了扩展，得到 $\hat{r}_{ui}^{k+1}=\hat{r}_{ui}^{k}+<\mathbf{e}_{u}^{k+1},\mathbf{e}_{i}^{k+1}>$ ，则扩展后的残差预测展开式可表示为：
$\begin{aligned} \hat{r}_{u i} & =\hat{r}_{u i}^{K-1}+<\mathbf{e}_u^K, \mathbf{e}_i^K> \\ & =\hat{r}_{u i}^{K-2}+<\mathbf{e}_u^{K-1}, \mathbf{e}_i^{K-1}>+<\mathbf{e}_u^K, \mathbf{e}_i^K> \\ & =\hat{r}_{u i}^0+<\mathbf{e}_u^1, \mathbf{e}_i^1>+\ldots+<\mathbf{e}_u^K, \mathbf{e}_i^K> \\ & =<\mathbf{e}_u^0\left\|\mathbf{e}_u^1\right\| \ldots\left\|\mathbf{e}_u^K, \quad \mathbf{e}_i^0\right\| \mathbf{e}_i^1\|\ldots\| \mathbf{e}_i^K>.\end{aligned}$

四、模型训练

在获取了残差预测向量表示后，对残差预测向量公式进行进一步地转换：

$\begin{aligned} \hat{r}_{u i}= & <\mathbf{e}_u^0\left\|\mathbf{e}_u^1\right\| \ldots\left\|\mathbf{e}_u^K, \quad \mathbf{e}_v^0\right\| \mathbf{e}_v^1\|\ldots\| \mathbf{e}_v^K> \\ =< & {\left[\mathbf{E}^0\right]_u\|\ldots\|\left[\mathbf{S}^K \mathbf{E}^0 \mathbf{W}^0 \ldots \mathbf{W}^K\right]_u, } \\ & {\left[\mathbf{E}^0\right]_i\|\ldots\|\left[\mathbf{S}^K \mathbf{E}^0 \mathbf{W}^0 \ldots \mathbf{W}^K\right]_i>} \\ = & <\left[\mathbf{E}^0\right]_u\|\ldots\|\left[\mathbf{S}^K \mathbf{E}^0 \mathbf{Y}^K\right]_u, \quad\left[\mathbf{E}^0\right]_i\|\ldots\|\left[\mathbf{S}^K \mathbf{E}^0 \mathbf{Y}^K\right]_i>\end{aligned}$
其中， $\mathbf{Y}^{K} = \mathbf{W}^{0}\mathbf{W}^{1}...\mathbf{W}^{K}$ （意味着在实际训练过程中可用一个矩阵参数代替多个矩阵参数，极大减少参数的数量）， $\mathbf{S}^{K}$ 表示 $\mathbf{S}$ 的 $K$ 次幂。由于本文关注的是隐式反馈，因此采用 BPR 中基于成对排序的损失函数：
$\min _{\Theta} \mathcal{L}(\mathbf{R}, \hat{\mathbf{R}})=\sum_{a=1}^M \sum_{(i, j) \in D_a}-\ln \left(s\left(\hat{r}_{a i}-\hat{r}_{a j}\right)\right)+\lambda\left\|\Theta_1\right\|^2$
其中， $\Theta = [\Theta_{1}, \Theta_{2}]$ ， $\Theta_{1}=[\mathbf{E}^{0}]$ ， $\Theta = [[\mathbf{Y}^{k}]^{K}_{k=1}]$ ， $\lambda$ 是是控制用户和物品自由嵌入矩阵复杂度的正则化参数， $D_a=\left\{(i, j) \mid i \in R_a \wedge j \in V-R_a\right\}$ 表示成对训练数据， $R_{a}$ 表示用户 $a$ 评分过的物品集。

zz.YE

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【推荐系统】User-Item CF：LR-GCCF

本次解读的文章是 2020 年发表于 AAAI 的一篇基于图卷积神经网络的用户物品协同过滤推荐算法论文，论文名为《Revisiting Graph Based Collaborative Filtering: A Linear Residual Graph Convolutional Network Approach》
复制链接

扫一扫

专栏目录