欢迎关注”生信修炼手册”!
聚类算法的理想结果是同一类别内的点相似度高,而不同类别之间的点相似度低。聚类属于无监督学习,数据没有标签,为了比较不同聚类模型的好坏,我们也需要一些定量的指标来进行评估。根式是否提供样本的标签信息,相关的指标可以分为以下两大类
1. 外部方法,外部方法指的是从外部提供数据的标签,比如通过专家认为定义类别,或者是本身就是有标签的数据,将标签拿掉之后做聚类
2. 内部方法,内部方法指的是不需要数据的标签,仅仅从聚类效果本身出发,而制定的一些指标
本文主要关注外部方法,常用的指标有以下几种
1. Purity
称之为纯度,公式如下
计算聚类正确的百分比,用每个簇内频数最高的样本类别作为正确的聚类,然后除以簇内的样本总数,通过一个例子来看下纯度的计算
整体的纯度就是(1/17)*(5+4+3)= 0.71, 从公式来看,纯度的值越高,聚类的性能越好,但是聚类的cluster个数越多,也会导致纯度值变高。所以无法直接使用纯度来表征聚类数量和聚类质量。
2. Normalized Mutual Information
简写为NMI, 称之为标准化互信息。首先来理解下互信息这个概念,互信息和熵是信息论的两个核心概念,互信息用于衡量两个信息之间的相关性,对于连个随机变量X和Y,互信息的公式如下
在概率论中, p(x, y)称之为联合概率,p(x), p(y)称之为边缘概率。互信息用于衡量其中一个变量对另一个变量不确定性减少的程度,下列推导证明了互信息和熵之间的关系
图示如下
两个变量之间的互信息,可以看做是边缘熵熵减去条件熵,如果两个变量完全独立,则互信息为零。对于算法聚类结果和外部标签,可以通过统计如下所示的表格,来计算互信息
理论上,互信息的值越大越好,可是其取值范围是没有上边界的。为了更好的比较不同聚类结果,提出了标准化互信息的概念,公式如下
将互信息的值归一化到0和1之间,这样就可以在不同数据集之间进行比较了。标准化互信息的值越接近1,聚类效果越好。
3. Adjusted mutual information
简写为AMI, 称之为调整互信息,公式如下