机器学习实战09：K均值聚类

最新推荐文章于 2024-05-15 14:21:36 发布

Evil

最新推荐文章于 2024-05-15 14:21:36 发布

阅读量641

点赞数 1

分类专栏：机器学习实战

本文链接：https://blog.csdn.net/weixin_45398231/article/details/103748738

版权

机器学习实战专栏收录该内容

9 篇文章 0 订阅

订阅专栏

聚类

聚类是一种无监督的学习，它将相似的对象归到同一个簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。K-均值（ K-means）聚类的算法之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。

簇识别

在介绍K-均值算法之前，先讨论一下簇识别（ cluster identification）。簇识别给出聚类结果的含义。假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在于，分类的目标事先已知，而聚类则不一样。因为其产生的结果与分类相同，而只是类别没有预先定义，聚类有时也被称为无监督分类（ unsupervised classification）。聚类分析试图将相似对象归入同一簇，将不相似对象归到不同簇。相似这一概念取决于所选择的相似度计算方法。

K-均值聚类

优点：容易实现。
缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。
适用数据类型：数值型数据。

K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的，每一个簇通过其质心（ centroid），即簇中所有点的中心来描述。
K-均值算法的工作流程是这样的。首先，随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中，具体来讲，为每个点找距其最近的质心，并将其分配给该质心所对应的簇。这一步完成之后，每个簇的质心更新为该簇所有点的平均值。

上述过程的伪代码表示如下：

创建k个点作为起始质心（经常是随机选择）
当任意一个点的簇分配结果发生改变时
    对数据集中的每个数据点
        对每个质心
            计算质心与数据点之间的距离
        将数据点分配到距其最近的簇
    对每一个簇，计算簇中所有点的均值并将均值作为质心

- K–均值聚类的一般流程
(1) 收集数据：使用任意方法。
(2) 准备数据：需要数值型数据来计算距离，也可以将标称型数据映射为二值型数据再用于距离计算。
(3) 分析数据：使用任意方法。
(4) 训练算法：不适用于无监督学习，即无监督学习没有训练过程。
(5) 测试算法：应用聚类算法、观察结果。可以使用量化的误差指标如误差平方和来评价算法的结果。
(6) 使用算法：可以用于所希望的任何应用。通常情况下，簇质心可以代表整个簇的数据来做出决策。

使用后处理来提高聚类性能

一种用于度量聚类效果的指标是SSE（ Sum of Squared Error，误差平方和）， SSE值越小表示数据点越接近于它们的质心，聚类效果也越好。因为对误差取了平方，因此更加重视那些远离中心的点。一种肯定可以降低SSE值的方法是增加簇的个数，但这违背了聚类的目标。聚类的目标是在保持簇数目不变的情况下提高簇的质量。
有两种可以量化的办法：合并最近的质心，或者合并两个使得SSE增幅最小的质心。第一种思路通过计算所有质心之间的距离，然后合并距离最近的两个点来实现。第二种方法需要合并两个簇然后计算总SSE值。必须在所有可能的两个簇上重复上述处理过程，直到找到合并最佳的两个簇为止。

二分 K-均值算法

为克服K-均值算法收敛于局部最小值的问题，有人提出了另一个称为二分K-均值（ bisecting K-means）的算法。该算法首先将所有点作为一个簇，然后将该簇一分为二。之后选择其中一个簇继续进行划分，选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值。上述基于SSE的划分过程不断重复，直到得到用户指定的簇数目为止。另一种做法是选择SSE最大的簇进行划分，直到簇数目达到用户指定的数目为止。

二分K-均值算法的伪代码形式如下：

将所有点看成一个簇
当簇数目小于k时 
    对于每一个簇
        计算总误差
        在给定的簇上面进行K-均值聚类（ k=2）
        计算将该簇一分为二之后的总误差
    选择使得误差最小的那个簇进行划分操作

示例：对地图上的点进行聚类

假如有这样一种情况：你的朋友Drew希望你带他去城里庆祝他的生日。由于其他一些朋友也会过来，所以需要你提供一个大家都可行的计划。 Drew给了你一些他希望去的地址。这个地址列表很长，有70个位置。这些地址其实都在俄勒冈州的波特兰地区。你要决定一个将这些地方进行聚类的最佳策略，这样就可以安排交通工具抵达这些簇的质心，然后步行到每个簇内地址。 Drew的清单中虽然给出了地址，但是并没有给出这些地址之间的距离远近信息。因此，你要得到每个地址的纬度和经度，然后对这些地址进行聚类以安排你的行程。你需要一个服务来将地址转换为纬度和经度。幸运的是，雅虎提供了这样的服务，然后对给出的地址坐标进行聚类，最后画出所有点以及簇中心，并看看聚类结果到底如何。

- 示例：对于地理数据应用二分K-均值算法
(1) 收集数据：使用Yahoo! PlaceFinder API收集数据。
(2) 准备数据：只保留经纬度信息。
(3) 分析数据：使用Matplotlib来构建一个二维数据图，其中包含簇与地图。
(4) 训练算法：训练不适用无监督学习。
(5) 测试算法：使用10.4节中的biKmeans()函数。
(6) 使用算法：最后的输出是包含簇及簇中心的地图。

本章小结

聚类是一种无监督的学习方法。所谓无监督学习是指事先并不知道要寻找的内容，即没有目标变量。聚类将数据点归到多个簇中，其中相似数据点处于同一簇，而不相似数据点处于不同簇中。聚类中可以使用多种不同的方法来计算相似度。
一种广泛使用的聚类算法是K-均值算法，其中k是用户指定的要创建的簇的数目。 K-均值聚类算法以k个随机质心开始。算法会计算每个点到质心的距离。每个点会被分配到距其最近的簇质心，然后紧接着基于新分配到簇的点更新簇质心。以上过程重复数次，直到簇质心不再改变。
这个简单的算法非常有效但是也容易受到初始簇质心的影响。为了获得更好的聚类效果，可以使用另一种称为二分K-均值的聚类算法。二分K-均值算法首先将所有点作为一个簇，然后使用K-均值算法（ k = 2）对其划分。下一次迭代时，选择有最大误差的簇进行划分。该过程重复直到k个簇创建成功为止。二分K-均值的聚类效果要好于K-均值算法。

Evil

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战09：K均值聚类

聚类聚类是一种无监督的学习，它将相似的对象归到同一个簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。K-均值（ K-means）聚类的算法之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别在介绍K-均值算法之前，先讨论一下簇识别（ cluster identification）。簇识别给出聚类结果的...
复制链接

扫一扫