简单的相似度计算

相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。

欧氏距离

计算两个点的空间距离,距离越小,越相似。
在这里插入图片描述
二维平面:
在这里插入图片描述
三维平面:
在这里插入图片描述
n维向量:在这里插入图片描述
例:
a(1,1,2,0,1,1,0,0,0);
b(1,1,1,0,1,1,1,0,0);
c(0,0,0,1,0,0,1,1,1);

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

余弦相似度

1.也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
在这里插入图片描述
2.两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性.
在这里插入图片描述
3.两个向量a,b的夹角很大可以说a向量和b向量有很低的的相似性,或者说a和b向量代表的文本基本不相似。
在这里插入图片描述
4.三角形中边a和b的夹角 的余弦计算公式为:
在这里插入图片描述
5.公式:
在这里插入图片描述
6.在向量表示的三角形中,假设a向量是(x1, y1),b向量是(x2, y2),那么可以将余弦定理改写成下面的形式,向量a和向量b的夹角 的余弦计算:
在这里插入图片描述
在这里插入图片描述
7.如果向量a和b不是二维而是n维,上述余弦的计算法仍然正确。假定a和b是两个n维向量,则a与b的夹角 的余弦等于:
在这里插入图片描述
例:
a(1,1,2,0,1,1,0,0,0,);
b(1,1,1,0,1,1,1,0,0);
c(0,0,0,1,0,0,1,1,1);

在这里插入图片描述
在这里插入图片描述

pearson相似度

皮尔森相关系数是用于衡量任意两个变量间线性相关程度的统计量,系数值的绝对值越大相关性越强,值域范围为[-1,1]。
在这里插入图片描述
皮尔逊相关度评价算法首先会找出两位评论者都曾评论过的物品,然后计算两者的评分总和与平方和,并求得评分的乘积之和。
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

例:

在这里插入图片描述
计算每一行的平均值。
在这里插入图片描述
每一行的评分减去各自的平均值
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Jaccard相似度

杰卡德系数是衡量两个集合间相似性的常用公式。在推荐系统中,杰卡德相似系数可以度量两个购买若干商品的用户之间的相似性。J值越大,说明相似度越高。其公式如下:
在这里插入图片描述
与Jaccard相似度相反的概念,用两个集合中不同元素的比例来衡量两个集合的区分度。公式为:
在这里插入图片描述
例:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

缺点:
Jaccard系数主要用于布尔值度量的个体间的相似度,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。只适用于二元属性数据的集合。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值