K-Mean聚类算法

wumo_rfr

已于 2022-06-19 10:03:48 修改

阅读量1.4k

点赞数 8

分类专栏：机器学习文章标签：聚类算法机器学习

于 2022-06-19 00:33:02 首次发布

本文链接：https://blog.csdn.net/weixin_45856170/article/details/125353667

版权

文章目录

0.前置基础
- 0.1聚类简介 [3] [5]
- 0.2 聚类与分类的区别[4]
1.K-Means算法思想
2.K-Means算法原理及步骤
3.计算要点
- - 3.1 k值选择[1] [3]
  - 3.2 距离问题
4.K-Means优缺点
5.python实现K-means[1]
6.调用机器学习库sklearn实现k-means 聚类[5]
7.延展学习
8.参考文档

0.前置基础

0.1聚类简介 [3] [5]

**Clustering (聚类)**是常见的unsupervised learning (无监督学习)方法，简单地说就是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset），这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。聚类的过程，我们并不清楚某一类是什么（通常无标签信息），需要实现的目标只是把相似的样本聚到一起，即只是利用样本数据本身的分布规律。

聚类算法可以大致分为传统聚类算法以及深度聚类算法：

传统聚类算法主要是根据原特征+基于划分/密度/层次等方法。
深度聚类方法主要是根据表征学习后的特征+传统聚类算法。

0.2 聚类与分类的区别[4]

聚类与分类算法的最大区别在于, 分类的目标类别已知, 而聚类的目标类别是未知的.[5]

分类：类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。属于监督学习。

聚类：事先不知道数据会分为几类，通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习。

1.K-Means算法思想

K-Means聚类算法是一种迭代求解的划分方法聚类分析算法[1] [3]，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法[2]。

简述：k-means即是把 n个点划分到k个聚类中，使得每个点都属于离他最近的均值（此即聚类中心）对应的聚类，以之作为聚类的标准。[5]

算法思想是：

(版本一)我们需要随机选择K个对象作为初始的聚类中心，然后计算每个对象和各个聚类中心之间的距离，然后将每个对象分配给距离它最近的聚类中心。聚类中心及分配给它们的对象就代表着一个聚类。每分配一个样本，聚类的中心会根据聚类中现有的对象被重新计算。此过程将不断重复，直至满足设置的终止条件。[1]

（版本二）先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个：

没有（或最小数目）对象被重新分配给不同的聚类。
没有（或最小数目）聚类中心再发生变化。
误差平方和局部最小。

得到相互分离的球状聚类，在这些聚类中，均值点趋向收敛于聚类中心。一般会希望得到的聚类大小大致相当，这样把每个观测都分配到离它最近的聚类中心（即均值点）就是比较正确的分配方案。[5]

2.K-Means算法原理及步骤

2.1k-means聚类原理[3]

k-means聚类可以说是聚类算法中最为常见的，它是基于划分方法聚类的，原理是先初始化k个簇类中心，基于计算样本与中心点的距离归纳各簇类下的所属样本，迭代实现样本与其归属的簇类中心的距离为最小的目标。

已知观测集 $x_1,x_2,…,x_n)$ ，其中每个观测都是一个 d-维实向量，k-平均聚类要把这 n个观测划分到k个集合中(k≤n),使得组内平方和最小。换句话说，它的目标是找到使得下式满足的聚类 $S_i$ ，

其中 $μ_i$ 是 $S_i$ 中所有点的均值。[5]

K-means 聚类的迭代算法实际上是 EM 算法，EM 算法解决的是在概率模型中含有无法观测的隐含变量情况下的参数估计问题。

在 K-means 中的隐变量是每个类别所属类别。K-means 算法迭代步骤中的每次确认中心点以后重新进行标记对应 EM 算法中的 E 步求当前参数条件下的 Expectation 。而根据标记重新求中心点对应 EM 算法中的 M 步求似然函数最大化时（损失函数最小时）对应的参数。EM 算法的缺点是容易陷入局部极小值，这也是 K-means 有时会得到局部最优解的原因。[3]

2.2 k-means计算步骤[1]

K-Means算法的具体步骤如下：

首先我们需要确定一个k值（随机），即我们希望数据经过聚类得到k个不同的集合
从给定的数据集中随机选择K个数据点作为质心
对数据集中的每个点计算其与每一个质心的距离（比如欧式距离）；数据点离哪个质心近，就划分到那个质心所属的集合
第一轮将所有的数据归号集合后，一共有K个集合，然后重新计算每个集合的质心
如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值，则表示重新计算的质心的位置变化不大，数据整体趋于稳定，或者说数据已经收敛。在这样的情况下，我们认为聚类效果已经达到了期望的结果，算法可终止。
反之，如果新质心和原来质心的距离变化很大，需要重复迭代3-5步骤，直至位置变化不大，达到收敛状态。

2.3 k-means术语[5]

簇: 所有数据的点集合，簇中的对象是相似的。
质心: 簇中所有点的中心（计算所有点的均值而来）.
SSE: Sum of Sqared Error（误差平方和）, 它被用来评估模型的好坏，SSE 值越小，表示越接近它们的质心. 聚类效果越好。由于对误差取了平方，因此更加注重那些远离中心的点（一般为边界点或离群点）。详情见kmeans的评价标准。
有关簇和质心术语更形象的介绍, 请参考下图:

在这里插入图片描述

2.4 k-means开发流程[5]

收集数据：使用任意方法
准备数据：需要数值型数据类计算距离, 也可以将标称型数据映射为二值型数据再用于距离计算
分析数据：使用任意方法
训练算法：不适用于无监督学习，即无监督学习不需要训练步骤
测试算法：应用聚类算法、观察结果.可以使用量化的误差指标如误差平方和（后面会介绍）来评价算法的结果.
使用算法：可以用于所希望的任何应用.通常情况下, 簇质心可以代表整个簇的数据来做出决策.

2.5 k-means评价标准[5]

k-means算法因为手动选取k值和初始化随机质心的缘故，每一次的结果不会完全一样，而且由于手动选取k值，我们需要知道我们选取的k值是否合理，聚类效果好不好，那么如何来评价某一次的聚类效果呢？也许将它们画在图上直接观察是最好的办法，但现实是，我们的数据不会仅仅只有两个特征，一般来说都有十几个特征，而观察十几维的空间对我们来说是一个无法完成的任务。

因此，我们需要一个公式来帮助我们判断聚类的性能，这个公式就是SSE (Sum of Squared Error, 误差平方和），它其实就是每一个点到其簇内质心的距离的平方值的总和，这个数值对应k-means函数中clusterAssment矩阵的第一列之和。 SSE值越小表示数据点越接近于它们的质心，聚类效果也越好。因为对误差取了平方，因此更加重视那些远离中心的点。一种肯定可以降低SSE值的方法是增加簇的个数，但这违背了聚类的目标。聚类的目标是在保持簇数目不变的情况下提高簇的质量。

2.6 k-means应用场景[5]

k-means，用于数据集内种类属性不明晰，希望能够通过数据挖掘出或自动归类出有相似特点的对象的场景。其商业界的应用场景一般为挖掘出具有相似特点的潜在客户群体以便公司能够重点研究、对症下药。

例如，在2000年和2004年的美国总统大选中，候选人的得票数比较接近或者说非常接近。任一候选人得到的普选票数的最大百分比为50.7%而最小百分比为47.9% 如果1%的选民将手中的选票投向另外的候选人，那么选举结果就会截然不同。实际上，如果妥善加以引导与吸引，少部分选民就会转换立场。尽管这类选举者占的比例较低，但当候选人的选票接近时，这些人的立场无疑会对选举结果产生非常大的影响。如何找出这类选民，以及如何在有限的预算下采取措施来吸引他们？答案就是聚类（Clustering)。

那么，具体如何实施呢？首先，收集用户的信息，可以同时收集用户满意或不满意的信息，这是因为任何对用户重要的内容都可能影响用户的投票结果。然后，将这些信息输入到某个聚类算法中。接着，对聚类结果中的每一个簇（最好选择最大簇），精心构造能够吸引该簇选民的消息。最后，开展竞选活动并观察上述做法是否有效。

另一个例子就是产品部门的市场调研了。为了更好的了解自己的用户，产品部门可以采用聚类的方法得到不同特征的用户群体，然后针对不同的用户群体可以对症下药，为他们提供更加精准有效的服务。

3.计算要点

3.1 k值选择[1] [3]

k值决定了我们将数据划分成多少个簇类。k个初始化的质心的位置选择对最后的聚类结果和整个大代码的运行时间都有非常大的影响。因此需要选择合适的k个质心

一般k值是通过先验知识或交叉验证来选取的。K值的确定常用：先验法、手肘法等方法。

先验法
先验比较简单，就是凭借着业务知识确定k的取值。比如对于iris花数据集，我们大概知道有三种类别，可以按照k=3做聚类验证。从下图可看出，对比聚类预测与实际的iris种类是比较一致的。
手肘法
可以知道k值越大，划分的簇群越多，对应的各个点到簇中心的距离的平方的和（类内距离，WSS）越低，我们通过确定WSS随着K的增加而减少的曲线拐点，作为K的取值。