聚类评估：轮廓系数(Silhouette Coefficient )

不易撞的网名

已于 2024-07-04 22:26:22 修改

阅读量2.5k

点赞数 18

分类专栏：机器学习文章标签：聚类机器学习人工智能

于 2024-06-08 17:22:28 首次发布

本文链接：https://blog.csdn.net/weixin_50569789/article/details/139548838

版权

234 篇文章

订阅专栏

轮廓系数（Silhouette Coefficient）是一种常用的评估聚类分析效果的指标，它能够帮助我们确定数据点是否被正确地分配到了相应的簇（cluster）中。轮廓系数同时考虑了簇内部的紧凑性和簇间的分离性，因此是一个综合性的评价标准。

轮廓系数的计算公式：

$\frac{b(i) - a(i)}{\max\{a(i), b(i)\}}$

$\begin{cases} 1-\frac{\mathrm{a(i)}}{\mathrm{b(i)}},& a(i)<b(i)\\ 0,& a(i)=b(i)\\ \frac{\mathrm{b(i)}}{\mathrm{a(i)}}-1,& a(i)>b(i) \end{cases}$

其中：

详细解释：

$a (i)$ : 这是样本点 $i$ 到同一簇中所有其他样本点的距离之和除以这些样本点的数量。它衡量了点 $i$ 在其簇内的“舒适度”，数值越小表明 $i$ 与簇内的其他点越接近，簇越紧凑。
$b (i)$ : 这是样本点 $i$ 到最近的其他簇中所有样本点的平均距离。它衡量了点 $i$ 与最邻近的其他簇的距离，数值越大表明 $i$ 与其它簇中的点相距较远，簇间的分离度越高。
$max\{a(i), b(i)\}$ : 这是 $a (i)$ 和 $b (i)$ 中较大的值，作为分母确保轮廓系数的值域在 [-1, 1] 之间。当 $b (i) > a (i)$ ，表示样本点更接近于自己的簇，轮廓系数倾向于正数；反之，如果 $a (i) > b (i)$ ，则表示样本点可能被错误分类，轮廓系数倾向于负数。