孙远帅. 基于大数据的推荐算法研究[D]. 厦门大学, 2014.
读的一篇论文的总结(2)
常规相似度度量方法
在机器学习和数据挖掘领域,大多算法都是采用特征提取力处根损用户行为数据或用户项目内容数据为用户和项目分别创建一个向量模型。通过度量向量模型的距离来度量用户或项目的相似度。下面主要介绍余弦距离和皮尔逊相关系数。
- 余弦距离
从几何角度看,余弦距离是指n(n>=2)维空间中两个向量夹角的余弦值。在推荐系统中,项目间的相似度如果通过向量间的余弦距离度量,那么如果用户对项目没有进行评分,则需要把用户对该项目的评分设为0。
项目i,j之间的像素的通过余弦距离度量为:
- 皮尔逊相关系数
皮尔逊相关系数一般用于计算两个定距变量间的线性关系,衡量两个数据集合是否在一条线上面,它的取值范围在[-1,1]之间。相关系数的绝对值越大,相关性就越强。当相关系数等于1时,表示两个数据集合完全正相关;当相关系数等于-1时,则为完全负相关。当相关系数的值接近于0时,表示两个定距变量之间没有相关关系。