非监督学习
聚类算法的评估
在无监督的情况下,我们可以通过考察簇的分离情况和簇的紧凑情况来评估聚类的效果。
1、轮廓系数
给定一个点 p p p,该点的轮廓系数定义为
其中 a ( p ) a(p) a(p) 是点 p p p与同一簇中的其他点 p ′ p' p′ 之间的平均距离, b ( p ) b(p) b(p) 是点 p p p与另一个不同簇中的点之间的最小平均距离(如果有 n n n 个其他簇,则只计算和点 p p p 最接近的一簇中的点与该点的平均距离)。 a ( p ) a(p) a(p) 反映的是 p p p 所属簇中数据的紧凑程度, b ( p ) b(p) b(p) 反映的是该簇与其他邻近簇的分离程度。显然, b ( p ) b(p) b(p) 越大, a ( p ) a(p) a(p) 越小,对应的聚类质量越好,因此我们将所有点对应的轮廓系数 s ( p ) s(p) s(p) 求平均值来度量聚类结果的质量。
2、均方根标准偏差
用来衡量聚类结果的同质性,即紧凑程度,定义为
其中 c i c_i ci 代表第 i i i个簇, c i c_i ci 是该簇的中心, x ∈ c i x∈c_i x∈ci 代表属于第 i i i 个簇的一个样本点