什么是CH系数?

CH系数指的是Calinski-Harabasz指数,这是一种用于评估聚类结果质量的统计量,特别是在确定最优聚类数目时非常有用。

CH系数基于簇内离散度簇间离散度的比值,较高的CH值表明聚类结构更加明显,簇间差异大而簇内差异小,因此好的聚类结果应该有较高的CH系数。

CH系数的计算公式如下:

C H ( k ) = B k / ( k − 1 ) W k / ( n − k ) CH(k) = \frac{B_k / (k-1)}{W_k / (n-k)} CH(k)=Wk/(nk)Bk/(k1)

这里每一个组成部分都有其特定的意义:

  • B k B_k Bk簇间离散度即各个簇质心与总质心之间的离散程度的加权和。它的值越大,表示簇之间的差异越大。

  • W k W_k Wk簇内离散度即每个簇内所有点到该簇质心的离散程度的加权和。它的值越小,表示簇内部的凝聚性越好。

  • k k k:聚类的簇数。

  • n n n:样本总数。

具体来说,公式中的每一项解释如下:

  • B k / ( k − 1 ) B_k / (k-1) Bk/(k1)簇间离散度的标准化,这里的 k − 1 k-1 k1 是自由度,因为 k k k 个簇就有 k − 1 k-1 k1 个自由度(假设总质心固定的情况下)。

  • W k / ( n − k ) W_k / (n-k) Wk/(nk)簇内离散度的标准化,这里的 n − k n-k nk 同样是自由度,表示 n n n 个样本减去已经聚类成簇的 k k k 组后剩余的自由度。

具体计算方法如下:

  1. 对于 B k B_k Bk,先计算每个簇的质心,然后计算每个簇质心到总体质心的平方距离的加权和,权重是每个簇内的样本数量。

B k = ∑ i = 1 k n i ( μ i − μ ) 2 B_k = \sum_{i=1}^{k} n_i (\mu_i - \mu)^2 Bk=i=1kni(μiμ)2

其中,

  • n i n_i ni 是第 i i i 簇的样本数量
  • μ i \mu_i μi 是第 i i i 簇的质心
  • μ \mu μ 是所有样本的总质心。
  1. 对于 W k W_k Wk,计算每个簇内所有样本到该簇质心的平方距离的加权和

W k = ∑ i = 1 k ∑ x j ∈ C i ( x j − μ i ) 2 W_k = \sum_{i=1}^{k} \sum_{x_j \in C_i} (x_j - \mu_i)^2 Wk=i=1kxjCi(xjμi)2

其中,

  • x j x_j xj 是属于第 i i i 簇的某个样本
  • C i C_i Ci 是第 i i i 簇的所有样本集合。
  • μ i \mu_i μi 是第 i i i 簇的质心

最后,将 B k B_k Bk W k W_k Wk 根据上述公式标准化并求比值,即可得到CH系数。

在实际应用中,通常会计算不同 k k k 值下的CH系数,选择使CH系数最大 k k k 值作为最优的聚类数目

这是因为最大的CH系数表明簇间差异最大而簇内差异最小,从而说明聚类效果最好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值