35、机器学习kmeans聚类

最新推荐文章于 2024-05-21 21:30:26 发布

mssssssssss2

最新推荐文章于 2024-05-21 21:30:26 发布

阅读量48

点赞数

文章标签：机器学习 kmeans 聚类

本文链接：https://blog.csdn.net/weixin_45217685/article/details/133935465

版权

一、kmeans步骤

1、随机设置K个特征空间内的点作为初始的聚类中心

2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类
中心点作为标记类别

3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平
均值）

4、如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行
第二步过程

二、性能评估指标

轮廓系数： $sc_{i}=\frac{b_i− a_i}{max⁡(b_i,a_i)}$
注：对于每个点i 为已聚类数据中的样本，b_i 为i 到其它族群的所有样本的平均
距离，a_i 为i 到本身簇的距离平均值

最终计算出所有的样本点的轮廓系数平均值

如果sc_i 小于0，说明a_i 的平均距离大于最近的其他簇。
聚类效果不好

如果sc_i 越大，说明a_i 的平均距离小于最近的其他簇。
聚类效果好

轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优
在这里插入图片描述

三、优缺点

特点分析：采用迭代式算法，直观易懂并且非常实用

缺点：容易收敛到局部最优解(多次聚类)
需要预先设定簇的数量(k-means++解决)

from sklearn.decomposition import PCA
import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
##读取数据
aisles=pd.read_csv(r'C:\Users\ms\Desktop\ddup\机器学习算法基础\Data explorer\aisles.csv')
prior=pd.read_csv(r'C:\Users\ms\Desktop\ddup\机器学习算法基础\Data explorer\order_products__prior.csv')
orders=pd.read_csv(r'C:\Users\ms\Desktop\ddup\机器学习算法基础\Data explorer\orders.csv')
products=pd.read_csv(r'C:\Users\ms\Desktop\ddup\机器学习算法基础\Data explorer\products.csv')
##合并数据
mg=pd.merge(aisles,products,on=['aisle_id','aisle_id'])
mg=pd.merge(mg,prior,on=['product_id','product_id'])
mg=pd.merge(mg,orders,on=['order_id','order_id'])
print(mg.info())
##将列打横
data=pd.crosstab(mg.user_id,mg.aisle)
##对数据进行主成分分析
pca=PCA(n_components=0.9)
data=pca.fit_transform(data)
x=data[:500]###只取前500行数据
##构建并拟合kmeans模型
km=KMeans(n_clusters=4)
km.fit(x)
##预测分类
predict=km.predict(x)
###画图
color=['orange', 'green', 'blue', 'purple']
col_list=[color[i] for i in predict]
plt.figure(figsize=(10,10))

plt.scatter(x[:,1],x[:,20],color=col_list)
plt.xlabel("1")
plt.ylabel("20")
plt.show()

##合并数据
mg=pd.merge(aisles,products,on=['aisle_id','aisle_id'])
mg=pd.merge(mg,prior,on=['product_id','product_id'])
mg=pd.merge(mg,orders,on=['order_id','order_id'])
print(mg.info())

在这里插入图片描述

##将列打横
data=pd.crosstab(mg.user_id,mg.aisle)
##对数据进行主成分分析
pca=PCA(n_components=0.9)
data=pca.fit_transform(data)
x=data[:500]###只取前500行数据
##构建并拟合kmeans模型
km=KMeans(n_clusters=4)
km.fit(x)
##预测分类
predict=km.predict(x)
# 评判聚类效果，轮廓系数
silhouette_score(x, predict)

###画图
color=['orange', 'green', 'blue', 'purple']
col_list=[color[i] for i in predict]
plt.figure(figsize=(10,10))

plt.scatter(x[:,1],x[:,20],color=col_list)
plt.xlabel("1")
plt.ylabel("20")
plt.show()

在这里插入图片描述

# 评判聚类效果，轮廓系数
print(silhouette_score(x, predict))

在这里插入图片描述

mssssssssss2

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
35、机器学习kmeans聚类

注：对于每个点i 为已聚类数据中的样本，b_i 为i 到其它族群的所有样本的平均。2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类。3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平。4、如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行。如果sc_i 小于0，说明a_i 的平均距离大于最近的其他簇。如果sc_i 越大，说明a_i 的平均距离小于最近的其他簇。1、随机设置K个特征空间内的点作为初始的聚类中心。距离，a_i 为i 到本身簇的距离平均值。
复制链接

扫一扫