推荐系统-SVD/LFM基于模型的协同过滤

最新推荐文章于 2024-09-17 06:58:04 发布

zhuimeng999

最新推荐文章于 2024-09-17 06:58:04 发布

阅读量2.7k

点赞数

文章标签：人工智能机器学习算法

本文链接：https://blog.csdn.net/zhuimeng999/article/details/80575270

版权

姓名：Jyx
描述：人工智能学习笔记

推荐系统SVD

在推荐系统里，我们把用户和物品放在同一个矩阵里，矩阵里的每个元素 $r_{pq}$ 代表用户 $p$ 对物品 $q$ 的评分。为了发现用户和物品间的联系，我们对矩阵进行分解
$\bf{R}_{N \times D} = \begin{pmatrix} \bf{p}_1 \\ \bf{p}_2 \\ \vdots \\ \bf{p}_N \end{pmatrix}_{N \times N} \begin{pmatrix} \Sigma_{11} & 0 & \cdots & 0 \\ 0 & \Sigma_{22} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 0 \\ \end{pmatrix}_{N \times D} \begin{pmatrix} \bf{q}_1 \\ \bf{q}_2 \\ \vdots \\ \bf{q}_D \end{pmatrix}_{D \times D}^T$
这里 $p_i$ 可以看成是描述用户的向量， $q_j$ 是描述物品的向量， $\Sigma$ 表示用户和物品的耦合关系，用户对任意物品的评分就是
$\bf{r}_{ij} = \bf{p_i} \begin{pmatrix} \Sigma_{11} & 0 & \cdots & 0 \\ 0 & \Sigma_{22} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 0 \\ \end{pmatrix}_{N \times D} q_j^T$
但是SVD分解还有一些缺点

时间复杂度是 $O(N^3)$
评分矩阵太稀疏，分解难以进行
SVD分解会导致大量的参数，而训练样本数有限，所以每个参数不能得到足够的训练，容易出现过拟合
为此，我们简化SVD分解，SVD分解提供了一种思路，我们化简他的过程，只保留用户矩阵和物品矩阵，并且减少原始SVD分解的特征维数（用户N元N维，物品D元D维），变为K维，得到
$\bf{R}_{N \times D} = \begin{pmatrix} \bf{p}_1 \\ \bf{p}_2 \\ \vdots \\ \bf{p}_N \end{pmatrix}_{N \times K} \begin{pmatrix} \bf{q}_1 \\ \bf{q}_2 \\ \vdots \\ \bf{q}_D \end{pmatrix}_{D \times K}^T \\ r_{ij} = \bf{p}_i \bf{q}_j^T = \sum_{k = 1}^K p_{ik} q_{jk}$
采用二次损失，有
$\mathop{\arg \min}_{P, Q} \frac{1}{2}\sum_{i, j}(r_{ij} - \sum_{k = 1}^K p_{ik} q_{jk})^2$
即使这样，维数依旧太高，需要加入正则，采用 $L_2$ 正则，这样优化就变为
$\mathop{\arg \min}_{P, Q} \frac{1}{2} \sum_{i, j}(r_{ij} - \sum_{k = 1}^K p_{ik} q_{jk})^2 + \frac{1}{2} \lambda_p \sum_{i=1}^N || \bf{p}_{i}||_2^2 + \frac{1}{2} \lambda_q \sum_{j=1}^D || \bf{q}_{j}||_2^2 \\$
即
$\mathop{\arg \min}_{P, Q} \frac{1}{2} \sum_{i, j}(r_{ij} - \sum_{k = 1}^K p_{ik} q_{jk})^2 + \frac{1}{2} \lambda_p \sum_{i=1}^N \sum_{k = 0}^K p_{ik}^2 + \frac{1}{2} \lambda_q \sum_{j=1}^D \sum_{ k = 1} ^K q_{jk}^2$
一般我们会加上几个偏置，一个全局偏置，一个用户偏置，一个物品偏置，当然每个偏置也要相应的加正则，最终我们得到
预测函数。因为全局偏置为一个数，用户偏置，物品偏置均为向量，和已经没法写成矩阵形式了，每个用户对物品的打分写成
$r_{ij} = \mu + m_{i} + w_{j} + \sum_{k = 1}^K p_{ik} q_{jk}$
损失函数
$\mathop{\arg \min}_{P, Q} \frac{1}{2} \sum_{i, j}(r_{ij} - \mu - m_{i} - w_{j} - \sum_{k = 1}^K p_{ik} q_{jk})^2 + \frac{1}{2} \lambda_p \sum_{i=1}^N \sum_{k = 0}^K p_{ik}^2 + \frac{1}{2} \lambda_q \sum_{j=1}^D \sum_{ k = 1} ^K q_{jk}^2 + \frac{1}{2} \lambda_m \sum_{i}m_{i}^2 + \frac{1}{2} \lambda_w \sum_{ j}w_{j}^2$
$\mu$ 为常量，可以根据输入矩阵直接计算出来，我们对最终得到的损失函数求梯度
令 $e_{ij} = r_{ij} - \mu - m_{i} - w_{j} -\sum_{k = 1}^K p_{ik} q_{jk}$ ，有
$\begin{aligned} \dfrac{ \mathrm{d} loss}{\mathrm{d} p_{ik}} &= -\sum_j e_{ij} q_{jk} + \lambda_p p_{ik} \\ \dfrac{ \mathrm{d} loss}{\mathrm{d} q_{jk}} &= -\sum_i e_{ij} p_{ik} + \lambda_q q_{jk} \\ \dfrac{ \mathrm{d} loss}{\mathrm{d} m_{i}} &= -\sum_j e_{ij} + \lambda_m m_{i} \\ \dfrac{ \mathrm{d} loss}{\mathrm{d} w_{j}} &= -\sum_i e_{ij} + \lambda_w w_{j} \\ \end{aligned}$
采用梯度下降法，则更新公式为
$\begin{aligned} p_{ik}^{t+1} &= p_{ik}^{t} + \alpha (\sum_j e_{ij}^t q_{jk}^t - \lambda_p p_{ik}^t) \\ q_{jk}^{t+1} &= q_{jk}^{t} + \alpha (\sum_i e_{ij}^t p_{ik}^t - \lambda_q q_{jk}^t) \\ m_{i}^{t+1} &= m_{i}^t + \alpha (\sum_j e_{ij}^t - \lambda_m m_{i}^t) \\ w_{j}^{t+1} &= w_{j}^t + \alpha (\sum_i e_{ij}^t - \lambda_w w_{j}^t) \\ \end{aligned}$
$\alpha$ 为学习率， $\lambda_p$ ， $\lambda_q$ ， $\lambda_m$ ， $\lambda_w$ 为正则参数