基于大数据的推荐算法研究(2)——改进相似度

本文探讨了基于大数据的推荐算法中,如何改进常规的相似度度量方法,如余弦距离和皮尔逊相关系数。通过改进,能够更有效地处理评分矩阵的稀疏性,并提高计算效率,例如引入倒排索引加速查找共同评分用户。
摘要由CSDN通过智能技术生成

孙远帅. 基于大数据的推荐算法研究[D]. 厦门大学, 2014.
读的一篇论文的总结(2)

常规相似度度量方法

在机器学习和数据挖掘领域,大多算法都是采用特征提取力处根损用户行为数据或用户项目内容数据为用户和项目分别创建一个向量模型。通过度量向量模型的距离来度量用户或项目的相似度。下面主要介绍余弦距离和皮尔逊相关系数。

  • 余弦距离

从几何角度看,余弦距离是指n(n>=2)维空间中两个向量夹角的余弦值。在推荐系统中,项目间的相似度如果通过向量间的余弦距离度量,那么如果用户对项目没有进行评分,则需要把用户对该项目的评分设为0。
项目i,j之间的像素的通过余弦距离度量为:
这里写图片描述

  • 皮尔逊相关系数

皮尔逊相关系数一般用于计算两个定距变量间的线性关系,衡量两个数据集合是否在一条线上面,它的取值范围在[-1,1]之间。相关系数的绝对值越大,相关性就越强。当相关系数等于1时,表示两个数据集合完全正相关;当相关系数等于-1时,则为完全负相关。当相关系数的值接近于0时,表示两个定距变量之间没有相关关系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值