推荐系统算法协同过滤算法详解（一）杰卡德相似度和余弦相似度使用、缺陷

A乐神

已于 2024-01-30 19:22:38 修改

阅读量2.6k

点赞数 27

分类专栏：算法和数据结构文章标签：算法

于 2024-01-24 17:52:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43895362/article/details/135827630

版权

算法和数据结构专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目录

协同过滤算法(简称CF)

杰卡德相似度

余弦相似度

缺陷以及和皮尔森系数对比

前言

理解吧同胞们，实在是没办发把wps公式复制到文章上，只能截图了，我服了！！！

协同过滤算法(简称CF)

在早期，协同过滤几乎等同于推荐系统。主要的功能是预测和推荐。协同过滤推荐算法分为两类，分别是：

（英文userCF）

基于用户的协同过滤算法(相似的用户可能喜欢相同物品)；这个一般适合推荐新闻和皮皮虾之类的，数据跟人有很大关系，而且信息是每日都是更新的。如果你推荐购物这种，因为一个新建的用户可能购买的商品不足全量商品万分之1，商品数据量大，人对商品购买少，很难找到相似的人；随着用户和物品数量的增加，计算复杂度增加，所以需要这种更适合第二种算法。

（英文itemCF）

基于物品的协同过滤算法（这种方法通过分析物品之间的相似性，根据用户喜欢的物品，，推荐最大相似度其他物品。比如用户喜欢物品A，然后通过算法的出物品C和A的相似度极高，那么用户有可能喜欢物品C）。当然也有缺点:需要足够的用户-物品交互数据来找出物品之间的相似性。

当然你除此之外，还有基于模型的协同过滤方法。这就属于更高级的推荐了，他一般是多因素，也是现代化推荐系统的主力。

利用机器学习算法（如矩阵分解、深度学习等）来预测用户对物品的评分或偏好。
优点：能够处理大规模数据集，提高推荐质量。
缺点：模型训练可能需要大量计算资源。

下述我会先说下杰卡德相似度和余弦相似度，这两者都是衡量相似度的方法，但它们通常不直接被称为协同过滤算法。不过，它们可以用于协同过滤算法中计算用户或物品之间的相似度。

杰卡德相似度

杰卡德相似度用于衡量两个集合之间的相似度。它定义为两个集合交集的大小与它们并集的大小之比。

公式：

其实公式可以理解为：其实就是一组数中有无在另一组中存在于数，并且他的占比是多少。

示例

假设我们有两组数据：

A = {1, 2, 3, 4}

B = {3, 4, 5, 6}

计算它们的杰卡德相似度：

缺陷

用于衡量两个集合的相似度，计算它们共同元素的比例。缺点只能计算两组统一规则数相似度也就是说杰卡德相似度适合用于只关心元素是否存在的情况（例如集合或布尔向量），是不考虑用户的评分或偏好强度。

余弦相似度

余弦相似度用于衡量两个向量在方向上的相似度，广泛用于文本分析和推荐系统中。它通过测量两个向量间的夹角的余弦值来确定它们是否指向同一方向。

算法：

向量相乘除以模相乘

例子

所以，向量 A 和 B 的余弦相似度大约是 0.9759，表示它们在方向上非常接近。

下图也是个例子只不过他是模拟生产的，是我从b站上截个图拿的觉得讲的不错。经过计算Alice和用户1相似度极高，所以Alice物品5可以是代号3

缺陷以及和皮尔森系数对比

余弦相似度在计算机系统推荐开发中被广泛使用，特别是在处理文本数据和用户偏好时。尽管它有很多优点，但也存在一些局限性。以下是余弦相似度的一些缺点，特别是当与皮尔森相关系数相比较时：

不考虑评分的大小：

余弦相似度主要关注向量的方向而不是大小。这意味着它可能会忽略评分的规模差异。例如，如果一个用户对所有项目都给出很高的评分，而另一个用户对相同的项目给出较低的评分，即使他们的兴趣相似，余弦相似度也可能显示他们不相似。

相比之下，皮尔森相关系数会考虑用户的评分偏差，因此在处理不同用户的评分习惯时更加有效。

对稀疏数据以及冷启动问题：

在推荐系统中，用户-物品交互矩阵通常是稀疏的，而余弦相似度在处理稀疏数据时可能不够有效，因为它依赖于非零项的存在。余弦相似度在处理新用户或新物品（即冷启动问题）时面临挑战，因为缺乏足够的数据来计算准确的相似度。

皮尔森相关系数在处理稀疏数据时可能稍微强一些，因为它通过考虑用户的整体评分趋势来减轻这一问题。皮尔森相关系数同样受到冷启动问题的影响，但由于考虑了用户评分的平均值，可能在某些情况下更能处理新用户的推荐。

总结

如果想看皮尔森相关系数的请看我的下片文章，在我的算法区，叫推荐系统算法协同过滤算法详解（二）皮尔森相关系数

这是链接不知道能否使用，不行就直接在我的博客搜索

推荐系统算法协同过滤算法详解（二）皮尔森相关系数-CSDN博客

------------------------------------------与正文内容无关------------------------------------
如果觉的文章写对各位读者老爷们有帮助的话，麻烦点赞加关注呗！作者在这拜谢了!

混口饭吃了！如果你需要Java 、Python毕设、商务合作、技术交流、就业指导、技术支持度过试用期。请在关注私信我，本人看到一定马上回复！

关注

27
点赞
踩
45

收藏

觉得还不错? 一键收藏
打赏
0
评论
推荐系统算法协同过滤算法详解（一）杰卡德相似度和余弦相似度使用、缺陷

推荐系统算法协同过滤算法详解（一）杰卡德相似度和余弦相似度使用，和皮尔森系数对比的缺陷
复制链接

扫一扫

专栏目录

A乐神 CSDN认证博客专家 CSDN认证企业博客

码龄6年

155: 原创

2万+: 周排名

8796: 总排名

19万+: 访问

: 等级

4094: 积分

1833: 粉丝

2513: 获赞

26: 评论

1972: 收藏

私信

关注

热门文章

分类专栏

网络 3篇
数据库知识 3篇
mongodb 4篇
算法和数据结构 6篇
mysql小技巧 1篇
docker 6篇
CV机器视觉 4篇
python 7篇
python小技巧 2篇
java 20篇
java异常 7篇
java小技巧 8篇
java框架 21篇
其他 8篇
IDE工具 16篇
前端 6篇
Liunx 15篇
Liun小技巧 10篇

最新评论

Centos7安装jdk8或11以及切换方案
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Centos7安装jdk8或11以及切换方案
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Docker 常用命令以及镜像选择
Git小发明: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Docker 安装gitLab
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
centos7 镜像文件下载
A乐神: 奥，应该是没复制上，晚点我给复制上来

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

A乐神 恭喜发财啊，老板，嘻嘻！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。