机器学习实战（十三）推荐系统（协同过滤 Collaborative Filtering）

最新推荐文章于 2024-09-01 13:02:03 发布

I can丶

最新推荐文章于 2024-09-01 13:02:03 发布

阅读量3k

点赞数 8

分类专栏：机器学习文章标签：机器学习推荐系统协同过滤欧式距离皮尔逊相关系数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhq9695/article/details/83748199

版权

本文详细介绍了推荐系统的四种算法：基于内容的推荐、基于用户的推荐、基于内容的协同过滤和基于用户的协同过滤，包括相似度计算如欧式距离、皮尔逊相关系数和余弦相似度，并给出了实战案例。

摘要由CSDN通过智能技术生成

目录

1.1. 欧式距离（Euclidean metric）

1.2. 皮尔逊相关系数（Pearson correlation coefficient）

1.3. 余弦相似度（Cosine similarity）

2. 基于内容（物品）的推荐算法

3. 基于用户的推荐算法

4. 基于内容（物品）的协同过滤推荐算法

5. 基于用户的协同过滤推荐算法

6. 实战案例

6.1. 基于物品的协同过滤算法

6.2. SVD压缩数据后，基于物品的协同过滤算法

6.3. 基于用户的协同过滤算法

学习完机器学习实战的推荐系统，简单的做个笔记。文中部分描述属于个人消化后的理解，仅供参考。

所有代码和数据可以访问我的 github

如果这篇文章对你有一点小小的帮助，请给个关注喔~我会非常开心的~

0. 前言

在推荐算法中，数据通常由一个矩阵构成，每一行（列）代表用户，每一列（行）代表物品，每一个元素代表用户对物品的评分。

推荐系统的基本思想是，预测用户对物品的评分，若评分高，则推荐给该用户。

本篇主要简单介绍四种推荐系统：

基于内容（物品）的推荐算法
基于用户的推荐算法
基于内容（物品）的协同过滤推荐算法
基于用户的协同过滤推荐算法

注：基于内容的算法复杂度会随着内容的增加而增加，基于用户的算法复杂度会随着用户的增加而增加。

1. 相似度

1.1. 欧式距离（Euclidean metric）

欧式距离是两个向量之间的距离，定义如下：

$d=\left\|A-B\right\|$

距离越短，说明相似程度越高，因此可通过如下定义，将其转换到 $[0,1]$ 范围内，越接近 $1$ ，说明相似度越高：

$\frac{1}{1+d}$

1.2. 皮尔逊相关系数（Pearson correlation coefficient）

皮尔逊相关系数是两个向量的协方差和标准差的商：

$\rho =\frac{cov(A,B)}{\sigma_A\sigma_B}=\frac{\sum_{i=1}^{n}(A_i-\overline{A})(B_i-\overline{B})}{\sqrt{\sum_{i=1}^{n}(A_i-\overline{A})^2}\sqrt{\sum_{i=1}^{n}(B_i-\overline{B})^2}}$

皮尔逊相关系数的取值范围是 $[-1,1]$ ，通过以下定义，将其转换至 $[0,1]$ 范围：

$0.5+0.5*\rho$

1.3. 余弦相似度（Cosine similarity）

余弦相似度是计算两个向量的夹角余弦值，如果向量正交，则相似度为 $0$ ：

$\cos(\theta)=\frac{A\cdot B}{\left\|A\right\|\left\|B\right\|}$

余弦相似度的取值范围也是 $[-1,1]$ ，通过以下定义，将其转换至 $[0,1]$ 范围：

$0.5+0.5*\cos(\theta)$

2. 基于内容（物品）的推荐算法

基于内容的推荐算法要求已知物品的特征属性值，通过计算两个物品属性的相似程度，进行推荐。

根本道理就是，如果这两个物品相似，你喜欢这个物品，就预测你也喜欢另一个。

例如在下述例子中，已知电影的特征属性浪漫程度和动作程度，右侧是用户的评分：

	电影浪漫程度x_1	电影动作程度x_2	用户A

最低0.47元/天解锁文章

关注

8
点赞
踩
33

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。