聚类模型评估综述-兰德指数的公式理解及scala版本实现

本文介绍了聚类评估的内部和外部指标,重点关注兰德指数这一外部指标。兰德指数用于评价有标签数据的聚类效果,其值在0到1之间,1表示完美匹配。内容解释了兰德指数的统计量计算,并提供了一个基于Scala的简单实现。在大数据场景下,由于Spark MLlib未封装兰德指数,作者提出了分布式计算的挑战。
摘要由CSDN通过智能技术生成

概述

聚类的评估的指标,大方向是分为内部指标和外部指标。

内部指标:包括轮廓系数、Calinski-Harabaz 指数 等,内部指标是在开发阶段用的,一般用来选择聚类的个数。

外部指标:

分为两种:

有标签的结果评价:包括 兰德指数、纯度、互信息、v-measure 

无标签结果评估:于聚类中心的平均距离等

 

兰德指数

给定nn个对象集合S={O1,O2,....,On}S={O1,O2,....,On},假设U={u1,...,uR}U={u1,...,uR}和V={v1,...,vC}V={v1,...,vC}表示S的两个不同划分并且满足⋃Ri=1ui=S=⋃Cj=1vj⋃i=1Rui=S=⋃j=1Cvj , ui⋂ui∗=∅=vj⋂vj∗ui⋂ui∗=∅=vj⋂vj∗,其中1≤i≠i∗≤R1≤i≠i∗≤R,1≤j≠j∗≤C1≤j≠j∗≤C。

假设UU是外部评价标准即true_label,而VV是聚类结果。设定四个统计量:

  • aa为在UU中为同一类且在VV中也为同一类别的数据点对数
  • bb为在UU中为同一类但在VV中却隶属于不同类别的数据点对数
  • cc为在UU中不在同一类但在VV中为同一类别的数据点对数
  • dd为在UU中不在同一类且在VV中也不属于同一类别的数据点对数
Class\Cluster Same Cluster Different Cluster SumU
S
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值