操心没小课堂第一节 协同过滤算法

协同过滤算法

协同过滤算法(Collaborative Filtering)是推荐系统中一种广泛应用的技术,它主要依赖于用户的行为数据来预测用户可能感兴趣的内容。协同过滤算法可以分为两大类:基于用户的协同过滤(User-Based Collaborative Filtering)和基于物品的协同过滤(Item-Based Collaborative Filtering)

1.基于用户的协同过滤(UserCF)

这种类型的协同过滤算法寻找具有相似兴趣爱好的用户群组,并根据这些用户喜欢的内容来向目标用户推荐。具体步骤如下:

  1. 数据收集:收集用户对物品的评分或行为数据(如点击、购买、收藏等)。
  2. 相似用户发现:通过一定的相似度计算方法(如皮尔逊相关系数、余弦相似度等)找出与目标用户兴趣相似的用户。
  3. 推荐生成:根据相似用户的喜好,向目标用户推荐他们还没有接触过但可能会感兴趣的物品 

 2.基于物品的协同过滤(ItemCF)

 基于物品的协同过滤算法则是通过分析用户对物品的评分或行为,来推断物品之间的相似性,并根据用户已知的兴趣向其推荐类似的物品。具体步骤如下:

  1. 数据收集:同样需要收集用户对物品的评分或行为数据。
  2. 物品相似度计算:计算物品之间的相似度,常用的方法有余弦相似度、杰卡德相似系数等。
  3. 推荐生成:根据用户已有的评分或行为记录,找出用户喜欢的物品,并推荐与其相似的其他物品。

3.相似度计算放法

1.杰卡德相似度

2.余弦相似度(常用)

 局限性

 3.皮尔逊相关系数(余弦相似度升级版)

公式的话, 上面就是i的每一个元素减去平均值,j的每一个元素减去平均值然后相乘,分母的话是在求向量模长。

4.其他的相似度计算方法

 

 欧式距离(Euclidean Distance)是一种度量两个点在多维空间中距离的方法。它是直觉上最简单也是最常用的距离度量方式之一,基于欧几里得几何原理,即两点之间的直线距离。在数学上,欧式距离是两点间路径长度的最小值。

5.欧式距离和余弦相似度

4.实例 

1.基于用户的协同过滤(UserCF)

UserCF(User Collaborative Filtering,用户协同过滤)是一种推荐系统算法,广泛应用于个性化推荐领域。这种算法基于用户之间的相似度来进行推荐,通常用于解决“冷启动”问题较少的情况,即系统中已经有足够的用户行为数据。
UserCF 的基本原理
UserCF 的核心思想是找到与目标用户兴趣相似的其他用户,然后根据这些相似用户的喜好来推荐物品给目标用户。具体步骤如下:

  • 计算用户相似度:找到与目标用户兴趣相似的其他用户。
  • 推荐物品:根据相似用户的喜好来推荐物品给目标用户。

比如第一个人喜欢衣服裤子和帽子,第二个人也喜欢这三样,但是第二个人还喜欢鞋子,那第一个人就有可能也喜欢鞋子。

 例如

1.Alice与其他用户的相似度

2.根据相似度用户计算Alice对物品5的最终得分 
方式1

 

分母是Alice分别与两个用户的相似度之和,分子再乘上用户与物品5的评分。(如下)

方式2 

 

 

3.根据用户评分对用户进行推荐 

定一个阈值,超过即推荐给用户 

4.缺点 

计算成本高:
当用户数量庞大时,计算用户之间的相似度矩阵会变得非常耗时和资源密集。随着用户数量的增长,计算复杂度呈指数增长。
稀疏性问题:
如果用户对物品的评分或交互行为数据非常稀疏,那么很难找到具有足够相似性的用户。这会导致推荐质量下降。
推荐滞后:
UserCF推荐的结果依赖于用户相似度矩阵,而这个矩阵通常是预先计算好的。因此,当用户的行为发生变化时,推荐结果不能立即更新,导致推荐的实时性较差。
冷启动问题:
新加入系统的用户由于缺乏历史行为数据,难以找到与其相似的用户,从而导致推荐困难。
热门物品偏见:
UserCF倾向于推荐那些热门的物品,因为它更容易找到对这些物品有共同偏好的用户群。这可能导致长尾物品得不到推荐。
可扩展性问题:
随着系统的扩展,用户数量增加,维护用户相似度矩阵的成本也会增加,这使得UserCF在大规模系统中应用受限。
数据稀疏性:
在实际应用中,用户通常只会对少量物品进行评分或互动,这导致用户-物品评分矩阵非常稀疏,从而影响了用户相似度计算的准确性。
推荐多样性不足:
 由于推荐基于相似用户的历史行为,可能会导致推荐的多样性不足,用户可能会错过一些潜在的兴趣点。
实际工程应用中的挑战
在实际工程应用中,UserCF还面临着一些具体的挑战,比如:

  • 用户评分矩阵过大问题:随着用户数量的增加,用户评分矩阵变得非常庞大,存储和计算成本都会显著增加。
  • 推荐结果更新不及时:用户的新行为不会立即反映在推荐结果中,因为推荐结果通常是基于预计算的用户相似度矩阵。
5.适用场景

主要适用于用户少、物品多、时效性强的场景

 例如:企业内部的知识管理系统或小型社区平台,新闻网站、实时资讯推送服务,社交媒体平台上的动态推荐、短视频平台上的内容推荐(热搜)

2.基于Item的协同过滤算法(ItemCF)

优点

ItemCF更加适用于电商平台 

  • 计算效率高:物品相似度矩阵可以预先计算并存储,因此推荐时只需要查询相似度矩阵即可,计算成本较低。
  • 可扩展性好:物品相似度矩阵的计算可以并行化,适合大规模数据集。
  • 推荐稳定性好:物品相似度矩阵一旦计算完成,可以长时间使用,不需要频繁更新。
  • 冷启动问题缓解:对于新用户,可以基于已有用户的评分数据来推荐物品,缓解冷启动问题。
  • 推荐多样性:可以推荐多种类型的物品,避免热门物品偏见。
缺点 
  • 数据稀疏性问题:如果用户对物品的评分或行为数据非常稀疏,计算物品相似度的效果会受到影响。
  • 热门物品偏见:仍然可能倾向于推荐热门物品,因为热门物品更容易找到相似的物品。
  • 时效性问题:物品相似度矩阵需要定期更新,否则推荐结果可能滞后。 
  • 23
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值