机器学习10-推荐系统

最新推荐文章于 2024-09-04 21:39:45 发布

追逐繁星的girl

最新推荐文章于 2024-09-04 21:39:45 发布

阅读量313

点赞数 1

分类专栏：机器学习文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43989156/article/details/105936284

版权

机器学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

文章目录

基于内容的推荐算法
协同过滤
协同过滤算法
均值规范化

基于内容的推荐算法

符号定义

$n_u$ ：用户的数量
$n_m$ ：电影的数量
$r (i, j) = 1$ ：表示用户 j 有对电影 i 做出评价
$y^{(i,j)}$ ：当 $r (i, j) = 1$ 时，用户 j 对电影 i 的评分
$m^{(j)}$ ：用户 j 评价过的电影数目

如下图， $n_u = 4,n_m = 5$

在这里插入图片描述

假设每一部电影都有一个特征集 x，上图用 $x_1,x_2$ 表示， $x_1$ 衡量一部电影为爱情片的程度， $x_2$ 衡量一部电影为动作片的程度，此外，用 $x_0 = 1$ 表示截距项，则 $x^{(1)} = \begin{bmatrix} 1\\ 0.9\\ 0\\ \end{bmatrix}$

我们可以把每一个用户的预测评价值当做线性回归问题。对于每个用户 j，需要学习参数 $\theta^{(j)} \in \Bbb R^{n+1}$ ，n 为特征数量，之后便可用 $(\theta^{(j)})^Tx^{(i)}$ 预测用户 j 电影 i 的评分。

例如，预测用户 1 对电影 3 的评分，假设学习到 $\theta^{(1)} = \begin{bmatrix} 0\\5\\0 \end{bmatrix}$ ， $x^{(3)} = \begin{bmatrix} 1\\0.99\\0 \end{bmatrix}$ ，则有 $(\theta^{(1)})^Tx^{(3)} = 0.99 \times 5 = 4.95$

参数 $\theta$ 可通过最小化一下式子求得：

$min_{\theta^{(j)}} \frac{1}{2m^{(j)}}\sum_{i:r(i,j)=1}((\theta^{(j)})^T(x^{(i)}) - y^{(i,j)})^2 + \frac{\lambda}{2m^{(j)}}\sum_{k=1}^n(\theta_k^{(j)})^2$

其中， $\sum_{i:r(i,j) =1}$ 表示用户 j 对所有电影的评分总和，为了使式子更简单，可以去掉 $m^{(j)}$ （ $m^{(j)}$ 是常数，去掉之后 $\theta$ 的值不变）

$min_{\theta^{(j)}} \frac{1}{2}\sum_{i:r(i,j)=1}((\theta^{(j)})^T(x^{(i)}) - y^{(i,j)})^2 + \frac{\lambda}{2}\sum_{k=1}^n(\theta_k^{(j)})^2$

对所有 $\theta$ ：

$J(\theta^{(1)},\theta^{(2)},...,\theta^{(n_u)}) = min_{\theta^{(1)},\theta^{(2)},...,\theta^{(n_u)}} \frac{1}{2}\sum_{j=1}^{n_u} \sum_{i:r(i,j)=1}((\theta^{(j)})^T(x^{(i)}) - y^{(i,j)})^2 + \frac{\lambda}{2}\sum_{j=1}^{n_u} \sum_{k=1}^n(\theta_k^{(j)})^2$

若使用梯度下降算法更新 $\theta$ ：

$\theta_k^{(j)} := \theta_k^{(j)} - \alpha\sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)} - y^{(i,j)})x_k^{(i)}~~(for ~ k = 0)$

$\theta_k^{(j)} := \theta_k^{(j)} - \alpha(\sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)} - y^{(i,j)})x_k^{(i)} + \lambda\theta_k^{(j)})~~(for ~ k \neq 0)$

协同过滤

基于内容的推荐算法要求取得每部电影的特征值，然而这是很难的。对此，有另外一种算法无需取得特征值，而只要根据用户的爱好矩阵 $\theta$ 便可预测出用户对电影的评分。

给定 $\theta^{(1)},...,\theta^{(n_u)}$ ，则该算法的优化目标为：

$min_{x^{(1)},x^{(2)},...,x^{(n_m)}} \frac{1}{2}\sum_{i=1}^{n_m} \sum_{j:r(i,j)=1}((\theta^{(j)})^T(x^{(i)}) - y^{(i,j)})^2 + \frac{\lambda}{2}\sum_{i=1}^{n_m} \sum_{k=1}^n(x_k^{(i)})^2$

然后便可根据 $(\theta^{(j)})^Tx^{(i)}$ 预测用户 j 电影 i 的评分。

因此在预测用户 j 电影 i 的评分时，我们可以结合两种算法，轮流计算 x 与 $\theta$

协同过滤算法

在前面的内容中，需要不断迭代计算出 $\theta$ 与 x 的值，而事实上，有一种更高效的方法可以同时计算出 x 与 $\theta$ 的值，即同时最小化 $\theta^{(1)},...\theta^{(n_u)},x^{(1)},...,x^{(n_m)}$

$min_{\theta^{(1)},...\theta^{(n_u)},x^{(1)},...,x^{(n_m)}}J(\theta^{(1)},...\theta^{(n_u)},x^{(1)},...,x^{(n_m)}) = \frac{1}{2}\sum_{(i,j):r(i,j)=1}((\theta^{(j)})^T(x^{(i)}) - y^{(i,j)})^2 + \frac{\lambda}{2}\sum_{j=1}^{n_m} \sum_{k=1}^n(x_k^{(i)})^2 + \frac{\lambda}{2}\sum_{i=1}^{n_u} \sum_{k=1}^n(\theta_k^{(i)})^2$

协同过滤算法步骤：

将 $\theta^{(1)},...\theta^{(n_u)},x^{(1)},...,x^{(n_m)}$ 随机初始化为比较小的值
使用梯度下降算法（或其他算法）最小化 $min_{\theta^{(1)},...\theta^{(n_u)},x^{(1)},...,x^{(n_m)}}J(\theta^{(1)},...\theta^{(n_u)},x^{(1)},...,x^{(n_m)})$ ，即对 $j = 1,...,n_u, i = 1,...,n_m$ :
$\theta_k^{(j)} := \theta_k^{(j)} - \alpha(\sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)} - y^{(i,j)})x_k^{(i)} + \lambda\theta_k^{(j)})$
$x_k^{(j)} := x_k^{(j)} - \alpha(\sum_{j:r(i,j)=1}((\theta^{(j)})^Tx^{(i)} - y^{(i,j)})\theta_k^{(i)} + \lambda x_k^{(j)})$
(这里不取 $x_0,\theta_0$ )
预测评分 $(\theta^{(j)})^Tx^{(i)}$

均值规范化

假设有一个没有对任何电影评分的用户，算法该如何预测其对电影的评分？

在这里插入图片描述

若使用前面提到的算法，则对于该用户，其优化目标变为 $min_\theta^{(j)}\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^n(\theta_k^{(j)})^2$
无疑，算法会给出 $\theta^{(5)} = \begin{bmatrix} 0\\0 \end{bmatrix}$

因此，对于用户Eve，预测评分全为 0，这并没有实际意义

均值归一化可以解决这个问题

将所有的评分矩阵化，得到 $\begin{bmatrix} 5~~5~~0~~0~~?\\ 5~~?~~?~~0~~?\\ ?~~4~~0~~?~~?\\ 0~~0~~5~~4~~?\\ 0~~0~~5~~0~~?\\ \end{bmatrix}$

对 Y 求均值，得到 $\mu = \begin{bmatrix} 2.5\\ 2.5\\ 2\\ 2.25\\ 1.25 \end{bmatrix}$

令 Y 中每个值减去均值，得 $\begin{bmatrix} 2.5~~2.5~~-2.5~~-2.5~~?\\ 2.5~~~~?~~~~~~~~?~~~~~~-2.5~~?\\ ?~~~~~~~~~~2~~~-2~~~~~~~?~~~~~~~?\\ -2.25~~-2.25~~2.75~~1.75~~?\\ -1.25~~-1.25~~3.75~~-1.25~~?\\ \end{bmatrix}$

将新得到的 Y 作为用户评分矩阵，用 $(\theta^{(j)})^Tx^{(i)} + \mu_i$ 预测新的得分（因为前面减去了均值 $\mu_i$ ）

则对于没有给电影评过分的用户 Eve，可得到其预测得分为 $\begin{bmatrix} 2.5\\ 2.5\\ 2\\ 2.25\\ 1.25 \end{bmatrix}$

追逐繁星的girl

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习10-推荐系统

文章目录基于内容的推荐算法协同过滤协同过滤算法均值规范化基于内容的推荐算法符号定义nun_unu：用户的数量nmn_mnm：电影的数量r(i,j)=1r(i,j) = 1r(i,j)=1：表示用户 j 有对电影 i 做出评价y(i,j)y^{(i,j)}y(i,j)：当 r(i,j)=1r(i,j) = 1r(i,j)=1 时，用户 j 对电影 i 的评分m(j)m^{(j)...
复制链接

扫一扫