K-means聚类算法(基于轮廓系数来选择n_cluster)

最新推荐文章于 2024-05-04 08:00:00 发布

YoJaack_

最新推荐文章于 2024-05-04 08:00:00 发布

阅读量7.4k

点赞数 7

本文链接：https://blog.csdn.net/xlperpetual/article/details/103959777

版权

轮廓系数：

如果一个簇中的大多数样本具有比较高的轮廓系数，则簇会有较高的总轮廓系数，则整个数据集的平均轮廓系数越高，则聚类是合适的。如果许多样本点具有低轮廓系数甚至负值，则聚类是不合适的，聚类的超参数K可能设定得太大或者太小。

现在有这样的散点图，如果采用KMeans聚类的话，如何选择合适的n_cluster（簇）呢？
在这里插入图片描述
我们先假设n_cluster=4

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.pyplot as plt
import matplotlib.cm as cm  # colormap
import numpy as np
import pandas as pd
import numpy as np
from sklearn.datasets import make_blobs
X,y = make_blobs(n_samples=500, n_features=2,centers=4,random_state=1)  
#要500个数，特征是两个
# 先设定我们要分成的簇数
n_clusters = 4 
# 创建一个画布，画布上共有一行两列两个图
fig, (ax1,ax2) = plt.subplots(1,2)
# 画布尺寸
fig.set_size_inches(18,7)  # 设置尺寸，以英尺为单位
# 第一个图是我们的轮廓系数图像，是由各个簇的轮廓系数组成的横向条形图
# 横向条形图的横坐标是我们的轮廓系数取值，纵坐标是我们的每个样本，因为轮过 系数是对于每一个样本进行计算的
ax1.set_xlim([-</

最低0.47元/天解锁文章

YoJaack_

关注

7
点赞
踩
33

收藏

觉得还不错? 一键收藏
1
评论
K-means聚类算法(基于轮廓系数来选择n_cluster)

轮廓系数：如果一个簇中的大多数样本具有比较高的轮廓系数，则簇会有较高的总轮廓系数，则整个数据集的平均轮廓系数越高，则聚类是合适的。如果许多样本点具有低轮廓系数甚至负值，则聚类是不合适的，聚类的超参数K可能设定得太大或者太小。现在有这样的散点图，如果采用KMeans聚类的话，如何选择合适的n_cluster（簇）呢？我们先假设n_cluster=4from sklearn.cluster ...
复制链接

扫一扫