聊聊推荐系统的相似度计算方法

本文讨论了推荐系统中常用的相似度计算方法,包括余弦夹角、欧氏距离、皮尔森相关系数和杰卡德系数。余弦夹角在推荐系统中广泛应用,对数值敏感度较低,而皮尔森相关系数通过均值化处理减少评分差异影响。杰卡德系数适合二值特征的计算。不同场景下,选择合适的相似度计算方法至关重要。
摘要由CSDN通过智能技术生成

个性化推荐系统的各种推荐算法中,大都会涉及用户或物品间的相似度计算,相似度计算方法也是推荐算法的核心之一,传统的推荐算法(如协同过滤、基于物品的推荐等)采用的相似度计算公式主要有:余弦夹角、欧氏距离、杰卡德系数和皮尔森相关系数等,那么这些方法具体有哪些差异,在推荐算法中该如何选择,下面将着重基于这两个方面进行分析说明。
1)余弦夹角 和 欧氏距离
在向量空间中,任意两点(设为A、B)间的关系可通过余弦夹角和欧式距离来衡量,其中余弦夹角衡量的是A和B在空间方向上的差异,欧式距离是A和B在空间位置上的差异。因此,两者的差异主要体现:
(1)欧氏距离从向量间的绝对距离区分差异,计算得到的相似度值对向量各个维度内的数值特征非常敏感,而余弦夹角从向量间的方向夹角区分差异,对向量各个维度内的数值特征不敏感;
(2)余弦夹角公式对向量进行了归一化处理,解决了向量个体间存在度量标准不统一问题产生的计算偏差;
(3)余弦夹角的值域区间为[-1,1],相对于欧式距离的值域范围[0,正无穷大],能够很好的对向量间的相似度值进行了量化。
因此,在推荐系统场景下,推荐算法大都采用余弦夹角进行用户(或物品)的相似度计算。当然,欧氏距离能够体现个体数值特征的绝对差异,一般用于需要从维度的数值大小中体现差异的相关度分析(如从用户行为指标分析用户价值的相似度或差异)。
2)余弦夹角 和 皮尔森相关系数
皮尔森相关系数是用于衡量任意两个变量间线性相关程度的统计量,系数值

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值