概述
聚类的评估的指标,大方向是分为内部指标和外部指标。
内部指标:包括轮廓系数、Calinski-Harabaz 指数 等,内部指标是在开发阶段用的,一般用来选择聚类的个数。
外部指标:
分为两种:
有标签的结果评价:包括 兰德指数、纯度、互信息、v-measure
无标签结果评估:于聚类中心的平均距离等
兰德指数
给定nn个对象集合S={O1,O2,....,On}S={O1,O2,....,On},假设U={u1,...,uR}U={u1,...,uR}和V={v1,...,vC}V={v1,...,vC}表示S的两个不同划分并且满足⋃Ri=1ui=S=⋃Cj=1vj⋃i=1Rui=S=⋃j=1Cvj , ui⋂ui∗=∅=vj⋂vj∗ui⋂ui∗=∅=vj⋂vj∗,其中1≤i≠i∗≤R1≤i≠i∗≤R,1≤j≠j∗≤C1≤j≠j∗≤C。
假设UU是外部评价标准即true_label,而VV是聚类结果。设定四个统计量:
- aa为在UU中为同一类且在VV中也为同一类别的数据点对数
- bb为在UU中为同一类但在VV中却隶属于不同类别的数据点对数
- cc为在UU中不在同一类但在VV中为同一类别的数据点对数
- dd为在UU中不在同一类且在VV中也不属于同一类别的数据点对数
Class\Cluster | Same Cluster | Different Cluster | SumU |
---|---|---|---|
S |