Jaccard系数

Jaccard index, 又称为Jaccard相似系数(Jaccard similarity coefficient用于比较有限样本集之间的相似性与差异性Jaccard系数值越大,样本相似度越高。

定义

给定两个集合A,BJaccard 系数定义为AB交集的大小与AB并集的大小的比值,定义如下:

当集合AB都为空时,J(A,B)定义为1

Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,样本相似度越低。公式定义如下:

其中对参差(symmetric difference 

性质:

非对称二元属性的相似性

在数据挖掘领域,常常需要比较两个具有布尔值属性的对象之间的距离,Jaccard距离就是常用的一种方法。给定两个比较对象ABA, B 均有n个二元属性,即每个属性取值为{0,1}。定义如下4个统计量:  

M00A,B属性值同时为0的属性个数;  

M01A属性值为0B属性值为1的属性个数;  

M10A属性值为1B属性值为0的属性个数;  

M11A,B属性值同时为1的属性个数;

 

如下图数示:

显然有

Jaccard 系数:

Jaccard距离:

主要应用场景

1.比较文本相似度,用于文本查重与去重;

2.计算对象间距离,用于数据聚类等。

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值