聚类分析-K-Means

最新推荐文章于 2024-03-20 21:43:02 发布

weixin_43630413

最新推荐文章于 2024-03-20 21:43:02 发布

阅读量345

点赞数

本文链接：https://blog.csdn.net/weixin_43630413/article/details/103510332

版权

K-Means算法也称为K-均值聚类算法，是一种广泛使用的聚类算法，也是其他聚类算法的基础

假定输入样本为S=X1,X2,…,Xm,则算法步骤为：
1, 选择初始的k个类别中心，例如k=2
2, 对于每个样本Xi，将其标记为距离类别中心最近的类别
3, 将每个类别中心更新为隶属该类别的所有样本的均值
4，重复第2步和第3步，直到类别中心的变化达到终止条件
终止条件一般有迭代次数，族中心变化率，最小平方误差MSE（Minimum Squared Error)等

其迭代过程如下：
在这里插入图片描述

K-Means的实现代码：
根据df表中所有数值型列名来实现对n条数据的聚类

df.columns
X=df[[表中所有数值型列名]]
X.info
#将所有X里的列数值标准化，统一量纲后存在变量Xstd里
from sklearn.preprocessing import StandardScaler
std=StandardScaler()
Xstd=std.fit_transform(X)
#导入KMeans库文件
from sklearn.cluster import KMeans
#确定聚类数量，例如聚成3类
est=KMeans(n-clusters=3, random_state=0)
#拟合预测，把结果（由0和1，2组成）存在res变量中
res=est.fit_predict(Xstd)
#计算每一类包含的数据个数
from collections import Counter
Counter(res)
#看具体哪些数据对应第0类，哪些数据对应第1类，哪些数据对应第2类。每类又有一些什么特征
df["预测分类”]=res
#用group by 作分类聚合
df.groupby("预测分类").mean().T
#取消显示时的科学计数法
np.set_printoptions(suppress)

weixin_43630413

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类分析-K-Means

K-Means算法也称为K-均值聚类算法，是一种广泛使用的聚类算法，也是其他聚类算法的基础假定输入样本为S=X1,X2,…,Xm,则算法步骤为：1, 选择初始的k个类别中心，例如k=22, 对于每个样本Xi，将其标记为距离类别中心最近的类别3, 将每个类别中心更新为隶属该类别的所有样本的均值4，重复第2步和第3步，直到类别中心的变化达到终止条件终止条件一般有迭代次数，族中心变化率，最小...
复制链接

扫一扫