机器学习之K均值的SSE和轮廓系数

最新推荐文章于 2025-03-17 17:58:34 发布

yangtom249

最新推荐文章于 2025-03-17 17:58:34 发布

阅读量1.1w

点赞数 5

分类专栏： Python 机器学习

本文链接：https://blog.csdn.net/weixin_44153121/article/details/113857470

版权

Python 同时被 2 个专栏收录

43 篇文章

订阅专栏

机器学习

23 篇文章

订阅专栏

本文介绍了KMeans聚类算法的两种评估方法：肘部法（SSE）和轮廓系数法。肘部法通过观察SSE随着簇数量增加的变化趋势来确定最佳簇数，而轮廓系数法综合考虑凝聚度和分离度，系数越大表示聚类效果越好。实验结果显示，SSE曲线的肘部对应于3个簇，与鸢尾花数据集的类别相符，且平均轮廓系数也验证了这一点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前文回顾：
肘部法：SSE误差平方和
SSE（sum of the squared errors）是对簇松散度的衡量，作为目标函数其实是一个严格的坐标下降（Coordinate Decendet）过程。SSE不能保证找到全局最优解，只能确保局部最优解。也就是说，可能会造成多种 k 个簇的划分情况。但是可以重复执行几次kmeans算法，选取SSE最小的一次作为最终的聚类结果。
轮廓系数法（Silhouette Coefficient）
轮廓系数法结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的效果。
指标：内部距离最小化，外部距离最大化。平均轮廓系数的取值范围为[-1,1]，系数越大，聚类效果越好。
每次聚类后，每个样本都会得到一个轮廓系数，当它为1时，说明这个点与周围簇距离较远，结果非常好，当它为0，说明这个点可能处在两个簇的边界上，当值为负时，暗含该点可能被误分了。

Sklearn代码实现

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn import datasets, metrics


def km_sse_cs():
    """
    KMeans算法效果评价
    1、簇内误方差(SSE, sum of the squared errors)，手肘法，肘部法，其大小表明函数拟合的好坏。
    使用图形工具肘部法，根据簇的数量来可视化簇内误方差。下降率突然变缓时即认为是最佳的k值（拐点）。
    当KMeans算法训练完成后，可以通过使用内置inertia属性来获取簇内的误方差。
    2、轮廓系数法（Silhouette Coefficient）结合了聚类的凝聚度（Cohesion）和分离度（Separation）
    平均轮廓系数的取值范围为[-1,1]，系数越大，聚类效果越好。当值为负时，暗含该点可能被误分了。
    :return:
    """
    sample = load_data()
    data = sample.data
    # 存放设置不同簇数时的SSE值
    sse_list = []
    # 轮廓系数
    silhouettes = []
    # 循环设置不同的聚类簇数
    for i in range(2, 15):
        model = KMeans(n_clusters=i)
        model.fit(data)
        # kmeans算法inertia属性获取簇内的SSE
        sse_list.append(model.inertia_)
        # 轮廓系数
        silhouette = metrics.silhouette_score(data, model.labels_, metric='euclidean')
        silhouettes.append(silhouette)

    # 绘制簇内误方差曲线
    plt.subplot(211)
    plt.title('KMeans 簇内误方差')
    plt.plot(range(2, 15), sse_list, marker='*')
    plt.xlabel('簇数量')
    plt.ylabel('簇内误方差(SSE)')
    # 绘制轮廓系数曲线
    plt.subplot(212)
    plt.title('KMeans 轮廓系数')
    plt.plot(range(2, 15), silhouettes, marker='o')
    plt.xlabel('簇数量')
    plt.ylabel('轮廓系数')

    plt.tight_layout()
    plt.show()


def load_data():
    """
    加载鸢尾花数据集
    """
    return datasets.load_iris()


if __name__ == '__main__':
    import matplotlib as mpl

    # 汉字字体,优先使用楷体，如果找不到楷体，则使用黑体
    mpl.rcParams['font.sans-serif'] = ['KaiTi', 'SimHei', 'FangSong']

    # KMeans算法
    km_sse_cs()