聚类算法评价指标——adjusted Rand index, ARI指数(调整兰德指数)


调整兰德指数(adjustedRand index,ARI)是一种常见的聚类外部评价指标,其通过计算在真实标签和聚类结果中被分配在相同或不同类簇的样本对的个数来进行聚类有效性的评价,具体定义如下:
λ A R I = λ R I − E ( λ R I ) m a x ( λ R I ) − E ( λ R I )          ( 10 ) \lambda_{ARI}=\frac{\lambda_{RI}-E(\lambda_{RI})}{max(\lambda_{RI})-E(\lambda_{RI})}\ \ \ \ \ \ \ \ (10) λARI=max(λRI)E(λRI)λRIE(λRI)        (10)
λ R I = λ T P + λ T N C m 2          ( 11 ) \lambda_{RI}=\frac{\lambda_{TP}+\lambda_{TN}}{C^2_m}\ \ \ \ \ \ \ \ (11) λRI=Cm2λTP+λTN        (11)

ARI 是一种聚类评估算法,通过计算样本点对位于同一类簇和不同类簇的数目来度量两个聚类结果之间的相似程度,其计算式如下:
在这里插入图片描述
其中,a 表示在真实和实验情况下都属于同一个簇的点对数目,b 表示在真实情况下属于同一个簇而在实验情况下不属于同一个簇的点对数目,c 表示在真实情况下不属于同一个簇而在实验情况下属于同一个簇的点对数目,d 表示在真实和实验情况下都不属于同一个簇的点对数目 . ARI 的取值范围为[-1,1],值越大表明和真实结果越吻合,即聚类效果更好 。

Rand指数(Rand Index, RI)兰德系数

兰德系数(Rand index,RI)需要给定实际类别信息 C,假设 K 是聚类结果, a a a表示在 C C C K K K 中都是同类别的元素对数, b b b 表示在 C C C K K K 中都不是同类别元素的个数,则兰德指数为:

R I = a + b C 2 n s a m p l e s RI=\frac{a+b}{C^{n_{samples}}_2} RI=C2nsamplesa+b

其中, C 2 n s a m p l e s C^{n_{samples}}_2 C2nsamples数据集中可以组成的总元素对数,RI 取值范围为[0, 1],值越大意味着聚类结果与真实情况越吻合。

对于随机结果,RI 并不能保证分数接近零。为了实现 “在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数(Adjusted rand index, ARI)被提出,它具有更高的区分度:

调整兰德系数(Adjusted rand index) ARI 取值范围为 [-1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI 衡量的是两个数据分布的吻合程度。

优点

对任意数量的聚类中心和样本数,随机聚类的 ARI 都非常接近于 0;
取值在 [-1, 1] 之间,负数代表结果不好,越接近于 1 越好;
可用于聚类算法之间的比较。

缺点

ARI需要真实标签

>>> from sklearn import metrics
>>> labels_true = [0, 0, 0, 1, 1, 1]
>>> labels_pred = [0, 0, 1, 1, 2, 2]
 
>>> metrics.adjusted_rand_score(labels_true, labels_pred)  
0.24

参考资料
[1] 基于信息熵加权的聚类集成算法 2021.3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值