K-means算法说明：

kangq77

已于 2023-09-12 22:38:44 修改

阅读量2k

点赞数 2

文章标签：算法 kmeans 机器学习

于 2020-06-06 11:24:03 首次发布

本文链接：https://blog.csdn.net/weixin_44979283/article/details/106584619

版权

K-means算法是最经典的聚类算法

本文将对kmeans进行说明：

一、参数详解
1、n_clusters : 聚类中心数量（需要的聚类中心数量），默认：8

2、max_iter : 算法运行的最大迭代次数，默认：300

3、tol: 容忍的最小误差，当误差小于tol就会退出迭代，默认：1e-4

4、n_init : k-means算法随机运行n_init次，最好的一个聚类结果做为最终结果，默认：10

5、init : 聚类中心的初始化方案，有三个选择{‘k-means++’, ‘random’ or an ndarray}

（1）'k-means++' : 默认选项，初始化过程如下：
		从输入的数据点集合中随机选择一个点作为第一个聚类中心；
		对于每一个点x，计算它与最近聚类中心的距离D(x)；
		选择新数据点作为新聚类中心，（D(x)较大，被选取概率较大）；
		重复2和3直到k个聚类中心被选出来
（2）'random': 随机选择k个实例作为聚类中心
（3）ndarray：如果传入为矩阵（ndarray），则将该矩阵中的每一行作为聚类中心

6、algorithm :K-means距离计算算法

（1）"full"：传统的距离计算方式.
（2）"elkan"：使用三角不等式，效率更高，但是目前不支持稀疏数据。
（3）"auto"：当为稀疏矩阵时，采用full，否则elkan。

7、precompute_distances : 是否将数据全部放入内存计算，可选{‘auto’, True, False}，开启时速度更快但是更耗内存.

（1）'auto' : 是否放入内存
  当n_samples * n_clusters > 12million，不放入内存；
  否则放入内存（double精度下大概要多用100M的内存）
（2）True : 进行预计算 ；False : 不进行预计算

8、n_jobs : 同时进行计算的核数（并发数）

（1）如果设置为-1，使用所有CPU；
（2）若果设置为1，不并行；
（3）如果设置小于-1，使用CPU个数+1+n_jobs个CPU

9、random_state : 用于随机产生中心的随机序列

10、verbose : 是否输出详细信息，

默认为0，bush

11、copy_x : 是否直接在原矩阵上进行计算。

默认为True，会copy一份进行计算。

二、新建对象后，常用的方法：
包括fit、predict、cluster_centers_和labels。

1、fit（X）函数：对数据X进行聚类；
2、predict方法：进行新数据类别的预测；
3、cluster_centers_获取聚类中心；
4、labels_获取训练数据所属的类别；
5、inertia_获取每个点到聚类中心的距离和。

kmeans = KMeans(n_clusters=2, random_state=0)#新建KMeans对象
kmeans.fit(X)#进行训练

print(kmeans.labels_)
print(kmeans.predict([[0, 0], [4, 4]]))
print(kmeans.cluster_centers_)

其他方法：

（1）fit_predict（X）：先对X进行训练并预测X中每个实例的类，等于先调用fit（X）后调用predict（X），返回X的每个类；

（2）transform（X）：将X进行转换，转换为K列的矩阵，其中每行为一个实例，每个实例包含K个数值（K为传入的类数量），第i列为这个实例到第K个聚类中心的距离；

（3）fit_transform（X）：类似（1），先进行fit之后进行transform；

（4）score（X）：输入样本（这里的样本不是训练样本，而是其他传入的测试样本）到他们的类中心距离和，然后取负数。

kangq77

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
K-means算法说明：

K-means算法是最经典的聚类算法本文将对kmeans进行说明：一、参数详解1、n_clusters : 聚类中心数量（需要的聚类中心数量），默认：82、max_iter : 算法运行的最大迭代次数，默认：3003、tol: 容忍的最小误差，当误差小于tol就会退出迭代，默认：1e-44、n_init : k-means算法随机运行n_init次，最好的一个聚类结果做为最终结果，默认：105、init : 聚类中心的初始化方案，有三个选择{‘k-means++’, ‘random’ or a
复制链接

扫一扫