python k-means聚类（调包）分析

最新推荐文章于 2024-08-11 16:00:02 发布

私人学习笔记

最新推荐文章于 2024-08-11 16:00:02 发布

阅读量2.3k

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/weixin_43628417/article/details/120836269

版权

本文介绍了如何使用K-Means算法对数据进行聚类，并通过Min-MaxScaler进行标准化处理。通过平均轮廓系数选择最佳聚类数，然后可视化了聚类结果和各类别特征分布，包括样本量、特征统计以及雷达图比较。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原数据df3
![在这里插入图片描述](https://img-blog.csdnimg.cn/0fcc7b44c0af4d19aeb407f3de8e1749.png

model_scaler = MinMaxScaler()  # 建立MinMaxScaler模型对象
df4 = model_scaler.fit_transform(df3)  # MinMaxScaler标准化处理

通过平均轮廓系数检验得到最佳KMeans聚类模型

score_list = list()  # 用来存储每个K下模型的平局轮廓系数
silhouette_int = -1  # 初始化的平均轮廓系数阀值
for n_clusters in range(2, 8):  # 遍历从2到5几个有限组
    model_kmeans = KMeans(n_clusters=n_clusters)  # 建立聚类模型对象
    labels_tmp = model_kmeans.fit_predict(df4)  # 训练聚类模型
    silhouette_tmp = silhouette_score(df4, labels_tmp)  # 得到每个K下的平均轮廓系数
    if silhouette_tmp > silhouette_int:  # 如果平均轮廓系数更高
        best_k = n_clusters  # 保存K将最好的K存储下来
        silhouette_int = silhouette_tmp  # 保存平均轮廓得分
        best_kmeans = model_kmeans  # 保存模型实例对象
        cluster_labels_k = labels_tmp  # 保存聚类标签
    score_list.append([n_clusters, silhouette_tmp])  # 将每次K及其得分追加到列表
print('{:*^60}'.format('K值对应的轮廓系数:'))
print(np.array(score_list))  # 打印输出所有K下的详细得分
print('最优的K值是:{0} \n对应的轮廓系数是:{1}'.format(best_k, silhouette_int))

#事先已经规定分为3类，所以直接n_clusters=3，若没规定，可用上步骤得到最佳的簇数。
kmeans = KMeans(n_clusters=3, random_state=0).fit(df)

可视化

labels = kmeans.labels_
centers = kmeans.cluster_centers_
markers = ['o', '^', '*']
colors = ['r', 'b', 'y']

#解决中文显示问题
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.figure(figsize=(12,8), dpi=500)
plt.xlabel('总订单数')
plt.ylabel('云豆数')
plt.title("聚类结果")  

# 画样本
for c in range(3):#聚的三类
    cluster = df[labels == c]
    plt.scatter(cluster['Integral'], cluster['云豆数'], 
                marker=markers[c], s=20, c=colors[c])
# 画出中心点
plt.scatter(centers[:, 0], centers[:, 1],
            marker='o', c="white", alpha=0.9, s=300)
for i, c in enumerate(centers):
    plt.scatter(c[0], c[1], marker='$%d$' % i, s=50, c=colors[i])
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/a727732b926b49f6814dd3efef559d1c.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5Lyg5Lyg5Lyg5Lyg5Lyg546y,size_20,color_FFFFFF,t_70,g_se,x_16)# 输出聚类后的每个样本点的标签（即类别）
df3['标签']=kmeans.labels_

考虑各类别的特征分布************************

#打上标签后，对不同簇下面的其他特征在进行分析
数据样例，总兑换次数是包括本站、商城、小游戏和无类型四种的
在这里插入图片描述

# 计算每个聚类类别下的样本量和样本占比
centers = kmeans.cluster_centers_
clustering_count = pd.DataFrame(df3.groupby(['标签'])['云豆数'].count())
clustering_ratio=clustering_count /len(df3)
print(clustering_count)
print("#"*30)
print(clustering_ratio)

# 计算各个聚类类别内部最显著特征值
cluster_features = []  # 空列表，用于存储最终合并后的所有特征信息
for line in range(3):  # 读取每个类索引
    label_data = df3[df3['标签'] == line]  # 获得特定类的数据

    part1_data = label_data.iloc[:, 2:9]  # 获得数值型数据特征
    part1_desc = part1_data.describe().round(3)  # 得到数值型特征的描述性统计信息
    merge_data1 = part1_desc.iloc[2, :]  # 得到数值型特征的均值

    cluster_features.append( merge_data1)  # 将每个类别下的数据特征追加到列表

#  输出完整的类别特征信息
cluster_pd = pd.DataFrame(cluster_features).T  # 将列表转化为矩阵
cluster_pd.columns=[0,1,2]
print('{:*^60}'.format('每个类别主要的特征:'))
all_cluster_set = pd.concat((clustering_count.T, clustering_ratio.T, cluster_pd),axis=0)  # 将每个聚类类别的所有信息合并
all_cluster_set

#各类别数据预处理,因为要画雷达图，所以将个数据标准化最好展示
num_sets = cluster_pd.iloc[0:8, :].T.astype(np.float64)  # 获取要展示的数据
num_sets_max_min = model_scaler.fit_transform(num_sets)  # 获得标准化后的数据

# 画图
fig = plt.figure(figsize=(10,10))  # 建立画布
ax = fig.add_subplot(111, polar=True)  # 增加子网格，注意polar参数
labels = np.array(cluster_pd.index)  # 设置要展示的数据标签
cor_list = ['g', 'r', 'y', 'b']  # 定义不同类别的颜色
angles = np.linspace(0, 2 * np.pi, len(labels), endpoint=False)  # 计算各个区间的角度
angles = np.concatenate((angles, [angles[0]]))  # 建立相同首尾字段以便于闭合
labels = np.concatenate((labels, [angles[0]]))# 建立相同首尾字段以便于闭合
# 画雷达图
for i in range(len(num_sets)):  # 循环每个类别
    data_tmp = num_sets_max_min[i, :]  # 获得对应类数据
    data = np.concatenate((data_tmp, [data_tmp[0]]))  # 建立相同首尾字段以便于闭合
    ax.plot(angles, data, 'o-', c=cor_list[i], label="第%d类"%(i))  # 画线
    ax.fill(angles, data,alpha=2.5)
# 设置图像显示格式
ax.set_thetagrids(angles * 180 / np.pi, labels, fontproperties="SimHei")  # 设置极坐标轴
ax.set_title("各聚类类别特征对比", fontproperties="SimHei")  # 设置标题放置
ax.set_rlim(-0.2, 1.2)  # 设置坐标轴尺度范围
plt.legend(loc="upper right" ,bbox_to_anchor=(1.2,1.0))  # 设置图例位置

plt.bar([‘第0类’,‘第1类’,‘第2类’],clustering_ratio[‘云豆数’])
plt.title(“类别占比”,)
在这里插入图片描述

聚类结果可视化参考：
https://www.jianshu.com/p/c40181e41b96
聚类结果特征分析
https://blog.csdn.net/weixin_38753213/article/details/107031845?utm_medium=distribute.pc_relevant.none-task-blog-2_defaultbaidujs_title~default-0.no_search_link&spm=1001.2101.3001.4242