聚类指标Rand Index

假设一个集合中有N篇文章

一个集合中有N(N-1)/2个集合对

TP:同一类的文章被分到同一个簇

TN:不同类的文章被分到不同簇

FP:不同类的文章被分到同一个簇

FN:同一类的文章被分到不同簇

Rand Index度量的正确的百分比

RI = (TP+TN)/(TP+FP+FN+TN)


因此,FP=40-20=20.

同理,



因此,TN=96-24=72.

 

Same cluster

Different clusters

Same class

TP=20

FN=24

Different classes

FP=20

TN=72

RI=(20+72)/(20+20+24+72)=0.68

 

Precision=TP/(TP+FP)

Recall=TP/(TP+FN)

F1=2×Recall×Precision/(Recall+Precision)

 

Precision=20/40=0.5

Recall=20/44=0.455

F1=(2*0.5*0.455)/(0.5+0.455)=0.48

聚类指标ACC(Accuracy)用于评估聚类结果的准确性。它是通过比较聚类结果与真实标签之间的一致性来衡量聚类的质量。ACC的取值范围为0到1,越接近1表示聚类结果越准确。 ACC的计算基于以下四种情况的统计: 1. True Positive(TP):将相同类别的样本正确地分配到同一个聚类中。 2. True Negative(TN):将不同类别的样本正确地分配到不同的聚类中。 3. False Positive(FP):将不同类别的样本错误地分配到同一个聚类中。 4. False Negative(FN):将相同类别的样本错误地分配到不同的聚类中。 根据上述情况,ACC的计算公式如下: ACC = (TP + TN) / (TP + TN + FP + FN) 其中,TP、TN、FP、FN分别代表上述四种情况的样本对数。 ACC的优点是简单直观,容易理解和计算。然而,它也有一些限制,例如对于具有不平衡类别分布的数据集,ACC可能会出现偏差,因为它只关注了样本对的分类一致性,而没有考虑到每个类别的数量差异。 在实际应用中,除了ACC外还有其他一些指标可以用于评估聚类结果的质量,比如互信息(Mutual Information)、调整兰德指数(Adjusted Rand Index)和轮廓系数(Silhouette Coefficient)等。根据具体的需求和数据特点,选择合适的指标进行评估是更为全面和准确的做法。 希望以上信息能帮助您更好地理解聚类指标ACC。如果您有任何其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值