KMeans聚类

最新推荐文章于 2024-06-14 08:54:53 发布

Dream_Bri

最新推荐文章于 2024-06-14 08:54:53 发布

阅读量724

点赞数

文章标签：聚类 kmeans 机器学习

本文链接：https://blog.csdn.net/ximu__l/article/details/129099475

版权

聚类与分类的区别

分类是指目标已经知道了，比如进行垃圾的分类，邮件的分类等。
聚类是事先不知道变量的目标是什么，完全通过算法根据数据的相似性进行集聚的。

聚类和分类最大的不同在于：分类的目标是事先已知的，而聚类则不一样，聚类事先不知道目标变量是什么，其划分的类别也没有提前定义出来。

KMeans介绍

大量数据都有着相似性，根据他们的相似性，可以将其划分为一类或一簇。划分的基本原理就是物以聚类，人以群分。

K均值（KMeans）是聚类中最常用的方法之一，基于点与点之间的距离的相似度来计算最佳类别归属。即：根据各个数据点之间的距离大小进行划分，将距离接近的数据划分为一类。

自然被分在同一个簇中的数据是有相似性的，而不同簇中的数据是不同的。当聚类完毕之后，我们就要分别去研究每个簇中的样本都有什么样的性质，从而根据业务需求制定不同的策略。KMeans常用于客户分群、用户画像、精确营销、基于聚类的推荐系统。

KMeans原理

1、随机选择 k 个样本作为初始簇类中心（k为超参，代表簇类的个数。可以凭先验知识、验证法确定取值）；

2、针对数据集中每个样本，计算它到 k 个簇类中心的距离，并将其归属到距离最小的簇类中心所对应的类中；

3、针对每个簇类，重新计算它的簇类中心位置；

4、重复迭代上面 2 、3 两步操作，直到达到某个中止条件（如迭代次数，簇类中心位置不变等）。

实现过程如下：
在这里插入图片描述

注：
1、sklearn中的KMeans使用的是欧几里得距离。
2、虽然在sklearn中只能被动选用欧式距离，但其他距离度量方式同样可以用来衡量簇内外差异。
3、在KMeans中，只要使用了正确的质心和距离组合，无论使用什么样的距离，都可以达到不错的聚类效果

KMeans有损失函数吗？

损失函数本质是用来衡量模型的拟合效果的，只有有着求解参数需求的算法，才会有损失函数。KMeans不求解什么参数，它的模型本质也没有在拟合数据，而是在对数据进行一种探索。

另外，在决策树中有衡量分类效果的指标准确度accuracy，准确度所对应的损失叫做泛化误差，但不能通过最小化泛化误差来求解某个模型中需要的信息，我们只是希望模型的效果上表现出来的泛化误差很小。

KMeans定义

sklearn.cluster.KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm='auto')

参数解释：
1、n_clusters=8：要聚成的簇数，以及要生成的质心数。

2、init {‘k-means++’, ‘random’, ndarray, callable}, default=’k-means++’
这是初始化质心的方法，输入"k- means++":代表一种为K均值聚类选择初始聚类中心的聪明的办法，以加速收敛。如果输入了n维数组，数组的形状应该是(n_clusters，n_features)并给出初始质心。

3、n_init int, default=10：使用不同的质心随机初始化的种子来运行，是KMeans算法的次数。

4、max_iter int, default=300：单次运行的KMeans算法的最大迭代次数。

5、tol float, default=1e-4：两次迭代间Inertia下降的量，如果两次迭代之间Inertia下降的值小于tol所设定的值，迭代就会停下。

6、precompute_distances {‘auto’, True, False}, default=’auto’
预计算距离(更快，但需要更多内存)。

7、‘auto’: 如果 n_samples * n_clusters > 1200万，不要预先计算距离。这对应于使用双精度来学习，每个作业大约100MB的内存开销。

8、verbose int, default=0：计算中的详细模式。

9、random_state int, RandomState instance, default=None：确定质心初始化的随机数生成。使用int可以是随机性更具有确定性。

10、copy_x bool, default=True：在预计算距离时，若先中心化数据，距离的预计算会更加准确。如果copy_x为True(默认值)，则不会修改原始数据，确保特征矩阵X是c-contiguous。如果为False，则对原始数据进行修改，在函数返回之前放回原始数据，但可以通过减去数据平均值，再加上数据平均值，引入较小的数值差异。

11、n_jobs int, default=None：用于计算的作业数。计算每个n_init时并行作业数。这个参数允许KMeans在多个作业线上并行运行。给这个参数正值n_jobs，表示使用 n_jobs 条处理器中的线程。值-1表示使用所用可用的处理器。值-2表示使用所有可能的处理器-1个处理器，以此类推。

12、algorithm {“auto”, “full”, “elkan”}, default=”auto”：使用KMeans算法。经典的EM风格的算法是"full"的。通过使用三角不等式，“elkan"变异在具有定义明确的集群的数据上更有效。然而，由于分配了额外的形状数组(n_samples、n_clusters)，它会占用更多的内存。目前，“auto” 为密集数据选择 “elkan” 为稀疏数据选择"full”。

KMeans简单示例

代码如下：

import numpy as np

X = np.array([[1, 2], [1, 4], [1, 0],
              [10, 2], [10, 4], [10, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
print(kmeans.labels_)
# 显示的结果为：[1 1 1 0 0 0]
print(kmeans.predict([[0, 0], [12, 3]]))
# 显示的结果为[1, 0]
print(kmeans.cluster_centers_)
# 输出的结果为：[[10.  2.] [ 1.  2.]]