聚类算法评价指标——adjusted Rand index, ARI指数(调整兰德指数)


调整兰德指数(adjustedRand index,ARI)是一种常见的聚类外部评价指标,其通过计算在真实标签和聚类结果中被分配在相同或不同类簇的样本对的个数来进行聚类有效性的评价,具体定义如下:
λ A R I = λ R I − E ( λ R I ) m a x ( λ R I ) − E ( λ R I )          ( 10 ) \lambda_{ARI}=\frac{\lambda_{RI}-E(\lambda_{RI})}{max(\lambda_{RI})-E(\lambda_{RI})}\ \ \ \ \ \ \ \ (10) λARI=max(λRI)E(λRI)λRIE(λRI)        (10)
λ R I = λ T P + λ T N C m 2          ( 11 ) \lambda_{RI}=\frac{\lambda_{TP}+\lambda_{TN}}{C^2_m}\ \ \ \ \ \ \ \ (11) λRI=Cm2λTP+λTN        (11)

ARI 是一种聚类评估算法,通过计算样本点对位于同一类簇和不同类簇的数目来度量两个聚类结果之间的相似程度,其计算式如下:
在这里插入图片描述
其中,a 表示在真实和实验情况下都属于同一个簇的点对数目,b 表示在真实情况下属于同一个簇而在实验情况下不属于同一个簇的点对数目,c 表示在真实情况下不属于同一个簇而在实验情况下属于同一个簇的点对数目,d 表示在真实和实验情况下都不属于同一个簇的点对数目 . ARI 的取值范围为[-1,1],值越大表明和真实结果越吻合,即聚类效果更好 。

Rand指数(Rand Index, RI)兰德系数

兰德系数(Rand index,RI)需要给定实际类别信息 C,假设 K 是聚类结果, a a a表示在 C C C K K K 中都是同类别的元素对数, b b b 表示在 C C C K K K 中都不是同类别元素的个数,则兰德指数为:

R I = a + b C 2 n s a m p l e s RI=\frac{a+b}{C^{n_{samples}}_2} RI=C2nsamplesa+b

其中, C 2 n s a m p l e s C^{n_{samples}}_2 C2nsamples数据集中可以组成的总元素对数,RI 取值范围为[0, 1],值越大意味着聚类结果与真实情况越吻合。

对于随机结果,RI 并不能保证分数接近零。为了实现 “在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数(Adjusted rand index, ARI)被提出,它具有更高的区分度:

调整兰德系数(Adjusted rand index) ARI 取值范围为 [-1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI 衡量的是两个数据分布的吻合程度。

优点

对任意数量的聚类中心和样本数,随机聚类的 ARI 都非常接近于 0;
取值在 [-1, 1] 之间,负数代表结果不好,越接近于 1 越好;
可用于聚类算法之间的比较。

缺点

ARI需要真实标签

>>> from sklearn import metrics
>>> labels_true = [0, 0, 0, 1, 1, 1]
>>> labels_pred = [0, 0, 1, 1, 2, 2]
 
>>> metrics.adjusted_rand_score(labels_true, labels_pred)  
0.24

参考资料
[1] 基于信息熵加权的聚类集成算法 2021.3

  • 8
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 聚类外部评价指标NMI(Normalized Mutual Information)、AC(Accuracy)和ARIAdjusted Rand Index)是用于评估聚类算法的指标。 首先,NMI是一种用于测量两个聚类结果之间的相似性的指标,它通过计算聚类结果和真实标签之间的互信息来量化它们的一致性。NMI的取值范围为0到1,值越高表示聚类结果与真实标签越相似。 其次,AC是一种评估聚类算法准确性的指标,它通过计算聚类结果中正确分类的样本数量与总样本数量的比例来衡量。AC的取值范围为0到1,值越高表示聚类结果越准确。 最后,ARI是一种通过比较聚类结果和真实标签之间的一致性来评估聚类算法的指标。ARI的取值范围为-1到1,值越接近1表示聚类结果与真实标签越一致,值越接近-1表示聚类结果与真实标签越不一致。 这三个指标在聚类算法评估中起着重要的作用。NMI可以揭示聚类结果的一致性程度,AC可以评估聚类结果的准确性,而ARI可以综合考虑聚类结果的一致性和准确性。通过使用这些指标,可以对不同的聚类算法进行客观的比较和评估,选择最合适的算法进行分析任务。 ### 回答2: 聚类外部评价指标是用来评估聚类算法结果与已知标签或人工分类之间的一致性程度。其中常用的三个评价指标是NMI(Normalized Mutual Information)、AC(Accuracy)和ARIAdjusted Rand Index)。 NMI是通过计算聚类结果与已知类别之间的互信息来度量聚类的一致性。它将聚类结果与已知类别之间的相似性量化为一个范围在0到1之间的数值,数值越高表示聚类结果与已知类别的一致性越高。 AC是通过计算聚类结果中正确分类的样本数量除以总样本数来度量聚类的准确性。AC的取值范围为0到1之间,取值越高表示聚类结果的准确性越高。 ARI是通过计算聚类结果与已知类别之间的兰德系数来度量聚类的一致性。ARI的取值范围在-1到1之间,取值越高表示聚类结果与已知类别的一致性越好。当ARI为0时,表示聚类结果与已知类别的一致性与随机分配结果相同。 这三个评价指标可以帮助我们评估聚类算法的效果,选择合适的聚类算法调整算法参数。在实际应用中,我们可以根据具体情况选择适合的评价指标来进行聚类结果的评估和比较,以提高聚类结果的准确性和一致性。 ### 回答3: 聚类外部评价指标NMI(Normalized Mutual Information,标准化互信息)、AC(Accuracy,准确率)和ARIAdjusted Rand Index调整兰德指数)是常用的评价聚类效果的指标。 NMI是通过计算聚类结果与真实类别之间的互信息来衡量聚类的准确性。互信息度量了聚类结果与真实类别之间的相似程度,值越大表示聚类结果越接近真实类别。NMI的取值范围在0到1之间,值越接近1表示聚类效果越好。 AC是一种简单直观的评价指标,计算分类正确的样本占总样本数的比例。准确率越高表示聚类结果与真实类别的一致性越高,当准确率为1时代表聚类结果完全与真实类别一致。 ARI是通过计算聚类结果与真实类别之间的兰德指数,对随机聚类取值进行了修正。兰德指数度量了聚类结果中相似样本对在真实类别中也属于同一类别的程度。ARI的取值范围在-1到1之间,值越大表示聚类效果越好,如果结果为0则表示聚类结果与随机聚类结果没有差异。 综合来看,NMI、AC和ARI都是常用的聚类外部评价指标,用于衡量聚类结果与真实类别的一致性和准确性。在进行聚类结果评估时,可以根据具体的需求选择合适的评价指标进行评估。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值