聚类结果的评价指标

最新推荐文章于 2024-01-08 01:26:00 发布

laufing

最新推荐文章于 2024-01-08 01:26:00 发布

阅读量4.3k

点赞数 1

分类专栏：机器学习算法学习文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_45228198/article/details/112425725

版权

机器学习算法学习专栏收录该内容

29 篇文章 0 订阅

订阅专栏

聚类评价指标

外部指标
内部指标

外部指标

Jaccard系数

JC=

FM指数

在这里插入图片描述

举例子

在这里插入图片描述

MI 互信息

信息熵

衡量信息的平均不确定性，非负性
H ( y ) = − $_{i = 1} ^k$ $p _i$ log ⁡ $p _i$
i为当前的簇
k为总的簇数
$p_i$ 为任意一个样本被分到第i簇的概率

比如：
对于真实标记y_true=np.array([0,0,1,1,2,2])
k=3
$p_0$ =2/6=1/3
$p_1$ =2/6=1/3
$p_2$ =2/6=1/3
则y_true的熵
H(y_true)=-1/3log(1/3)-1/3log(1/3)-1/3log(1/3)=log3
这里的对数底常取 2或者e

列联表

真实标签向量 y_true=np.array([0,0,1,1,2,2])
预测标签向量 y_pred=np.array([0,0,0,1,1,1])

列联表(contingency table)，满足
$m _{i j}$ = ∣ $y_{true_i}$ ∩ $y_{pred_j}$ ∣
$y_{true_i}$ ,真实标签中第i簇的样本集合
$y_{pred_j}$ ，聚类簇中第j簇的样本集合
$m _{i j}$ ，真实标签中第 i 簇的样本集合与聚类簇中第 j 簇的样本集合交集的样本数

则有
$y_{true_0}$ ={0，1}
$y_{true_1}$ ={2，3}
$y_{true_2}$ ={4，5}
$y_{pred_0}$ ={0，1，2}
$y_{pred_1}$ ={3，4，5}
$y_{pred_2}$ ={}

列联表为
M=
$\begin{gathered} \begin{bmatrix} m _{0 0} & m _{0 1} & m _{0 2} \\m _{1 0} & m _{1 1} & m _{1 2} \\ m _{2 0} & m _{2 1} & m _{2 2} \end{bmatrix} \end{gathered}$

M=
$\begin{gathered} \begin{bmatrix} 2 & 0 & 0 \\1 & 1 & 0 \\ 0 & 2 & 0 \end{bmatrix} \end{gathered}$

互信息的计算公式如下：

MI( $y_{true}$ , $y_{pred}$ ) = $_{i = 1} ^k$ $_{j= 1} ^k$ $p_{i , j}$ log ⁡( $p_{i , j}$ / $p_i$ × $p_j$ )

其中
$p_{i , j}$ = $m_{i,j}$ /m m为总样本数
$p_i$ =| $y_{true_i}$ |/m
$p_j$ =| $y_{pred_j}$ |/m
则根据y_true,y_pred标记值可以得到：
$p_{i , j}$ 矩阵
$\begin{gathered} \begin{bmatrix} 1/3 & 0 & 0 \\1/6 & 1/6 & 0 \\ 0 & 1/3 & 0 \end{bmatrix} \end{gathered}$
$p_i$ =[1/3 1/3 1/3]
$p_j$ =[1/2 1/2 0]
则MI( $y_{true}$ , $y_{pred}$ )=1/3log2+1/6log1+1/6log1+1/3log2=2/3log2=0.4621
这里取e为底
使用sklearn.metrics.mutual_info_score可以得到同样的结果

NMI标准化互信息

标准化互信息的计算方法如下：

NMI( $y_{true}$ , $y_{pred}$ ) = MI( $y_{true}$ , $y_{pred}$ ) / F(H ( $y_{true}$ ),H( $y_{pred}$ ))
通常F(H ( $y_{true}$ ),H( $y_{pred}$ ))采用算数平均值
F(H ( $y_{true}$ ),H( $y_{pred}$ ))=（H ( $y_{true}$ )+H( $y_{pred}$ )/2

则NMI( $y_{true}$ , $y_{pred}$ ) =MI( $y_{true}$ , $y_{pred}$ ) / 1/2(H ( $y_{true}$ )+H( $y_{pred}$ ))

据y_true,y_pred的标记值可得：
MI( $y_{true}$ , $y_{pred}$ ) =2/3log2
H ( $y_{true}$ )=log3
H( $y_{pred}$ )=log2
则NMI( $y_{true}$ , $y_{pred}$ )=(2/3log2) / 1/2(log3+log2)=0.5158
以e为底
sklearn.metrics.normalized_mutual_info_score同样可以算得0.5295
只不过sklearn里实现的F(H ( $y_{true}$ ),H( $y_{pred}$ ))采用几何平均值
F(H ( $y_{true}$ ),H( $y_{pred}$ ))=np.sqrt( H( $y_{true}$ )*H( $y_{pred}$ ) )
sklearn计算熵：from sklearn.metrics.cluster import entropy

AMI调整互信息

调整互信息的计算要复杂一些，其计算方法如下：

AMI( $y_{true}$ , $y_{pred}$ ) = $\frac {MI( y_{true} , y_{pred}) - \mathbb E\left\{ \text{MI}( y_{true} , y_{pred})\right\} } {F (H (y_{true}) ,H(y_{pred})) − \mathbb E\left\{ \text{MI}( y_{true} , y_{pred})\right\} }$

其中， $\mathbb E\left\{ \text{MI}(y_{true}, y_{pred}) \right\}$ 为互信息 $\text{MI}(y_{true}, y_{pred})$ 的期望，计算方法为

$\mathbb E\left\{ \text{MI}(y_{true}, y_{pred}) \right\} = ∑_{i = 1} ^k ∑_{j = 1} ^k ∑_{z = ( a_i + b_j − m )^+} ^{min ⁡ ( a_i , b_j )} \frac {z} {m} log ⁡ ( \frac{m × z} {a_i × b_j} ) \frac{a_i ! b_j ! ( m − a_i ) ! ( m − b_j ) !} {m ! z ! ( a_i − z ) ! ( b_j − z ) ! ( m − a_i − b_j + z ) ! }$

其中 $a_i + b_j − m)^+$ 为 $max ⁡ ( 1 , a_i + b_j − m)$
$a_i$ 为列联表M中的第 $i$ 行的和
$b_j$ 为列联表M中的第 $j$ 列的和

针对y_true,y_pred的标记值，可以计算得
MI( $y_{true}$ , $y_{pred}$ ) =2/3log2
H ( $y_{true}$ )=log3
H( $y_{pred}$ )=log2
$a_0$ =2+0+0=2
$a_1$ =1+1+0=2
$a_2$ =0+2+0=2
$b_0$ =2+1+0=3
$b_1$ =0+1+2=3
$b_2$ =0+0+0=0

$\mathbb E\left\{MI(y_{true}, y_{pred}) \right\}$ =2/5log2
计算过程：
i=0 j=0 z=[1,2] sum=0+1/15log2
i=0,j=1,z=[1,2] sum=0+1/15log2
i=0,j=2,z=[] sum=0
.
.
.
则
AMI( $y_{true}$ , $y_{pred}$ )= $\frac{2/3log2-2/5log2} {max(log3,log2)-2/5log2}$ =0.22504

这里计算F(H ( $y_{true}$ ),H( $y_{pred}$ )) 采用了max函数
也可以采用min函数min(log3,log2)，几何平均 $\sqrt {log3*log2}$ ，算数平均 $\frac {log3+log2} {2}$

使用sklearn.metrics.adjusted_mutual_info_score计算结果0.22504
sklearn就是使用的max函数计算F(H ( $y_{true}$ ),H( $y_{pred}$ ))

对于MI,NMI,AMI三者，通常采用NMI和AMI来作为衡量聚类效果的指标

内部指标

在这里插入图片描述

轮廓系数

单一样本的轮廓系数
$s(x_i) =\frac {b(x_i)-a(x_i)} {max[a(x_i),b(x_i)]}$
样本集S的轮廓系数 ----所有样本轮廓系数的平均值
轮廓系数SC越大，簇内越紧凑，簇间越分散

sklearn的实现：
sklearn.metrics.silhouette_score
X: 样本集数组
labels：聚类标签y_pred
metric：距离度量

DB指数

在这里插入图片描述

DB指数越小，簇内越紧凑，簇间越分散
sklearn实现：
sklearn.metrics.davies_bouldin_score
X：样本集数组
labels：聚类标签y_pred

new add in sklearn 0.20.0

Dunn指数

在这里插入图片描述
$d_{min}(C_i,C_j)$ ：两个簇中最近样本之间的距离
$diam(C_l)$ ：簇中最远的两个样本之间的距离
对于一个已完成的聚类，分母是最分散的那个簇中最远的两个样本之间的距离，是一个固定值，记为D
则对k=3时：
i=0, 取 $min([\frac{d_{min}(C_0,C_1)} {D} ,\frac{d_{min}(C_0,C_2)} {D}])=i_0$
i=1,取 $min([\frac{d_{min}(C_1,C_0)} {D} ,\frac{d_{min}(C_1,C_2)} {D}])=i_1$
i=2,取 $min([\frac{d_{min}(C_2,C_0)} {D} ,\frac{d_{min}(C_2,C_1)} {D}])=i_2$