数据挖掘实战（聚类分析）

最新推荐文章于 2024-07-09 17:33:15 发布

PqqqqqqY

最新推荐文章于 2024-07-09 17:33:15 发布

阅读量4.9k

点赞数 11

文章标签：数据挖掘人工智能数据分析

本文链接：https://blog.csdn.net/weixin_48231783/article/details/125238446

版权

数据探索

数据初步认识

为研究我国31个省市的城镇居民生活消费的规律，根据调查资料作区域消费类型划分地区了解到数据集data.xlsx。部分数据如下图所示：

查看数据相关信息

先导入相关包

再查看数据集信息

查看摘要统计。

图形数据探索

回归分析

查看食品与衣着和居住之间的关系

绘制图形如下：

矩阵图分析

生成各特征之间关系的矩阵图：

数据预处理

查看有无缺失值

可以看出没有缺失值，数据已经处理完毕的数据。

k-means聚类

算法简介

K-means聚类算法的最终目标就是根据输入参数k，把数据对象分成k个簇。基本思想：首先指定需要划分的簇的个数k值;然后随机地选择k个初始数据对象点作为初始的聚类中心;第三，计算其余的各个数据对象到这k个初始聚类中心的距离(这里一般采用距离作为相似性度量)，把数据对象划归到距离它最近的那个中心所处在的簇类中;最后，调整新类并且重新计算出新类的中心。如果两次计算出来的聚类中心未曾发生任何的变化，那么就可以说明数据对象的调整己经结束，也就是说聚类采用的准则函数是收敛的，表示算法结束。

算法特点：

K-Means算法的特点就是调整一个数据样本后就修改一次聚类中心以及聚类准则函数的值，当n个数据样本完全被调整完后表示一次迭代完成，这样就会得到新的簇和聚类中心的值。若在一次迭代完成之后，聚类准则函数的值没有发生变化，那么表明该算法已经收敛，在迭代过程中值逐渐缩小，直到达到最小值为止。该算法的本质是把每一个样本点划分到离它最近的聚类中心所在的类。

算法实现

使用python中skicit-learn模块进行k-均值算法的实验。采用交叉验证的方法，分别取簇数为2，3，4，5，6这5种情况，分别计算簇中各点与类中心的距离平方和（CH系数）与轮廓系数如图所示。

先导入相关包

再加载数据

查看加载的数据，生成一个数组

定义求聚类的函数

调用函数生成图形

得到结果如下图所示

图形可视化：

包括五种聚类的分析，并给出最佳的聚类结果。可以得到，当n为2时，聚类效果最好。

可以得到结果：

北京、上海、浙江、广东等省份经济较为发达，消费水平较高聚集为一簇，其它省份聚集为另外一类，聚类结果比较合理。

k-medoids方法

算法简介

K-中心点聚类算法的基本思想为：选用簇中位置最中心的对象，试图对n个对象给出k个划分，代表对象也被称为是中心点，其他对象则被称为非代表对象。最初随机选择k个对象作为中心点，该算法反复地用非代表对象来代替代表对象，试图找出更好的中心点，以改进聚类的质量；在每次迭代中，所有可能的对象对被分析，每个对中的一个对象是中心点，而另一个是非代表对象。每当重新分配发生时，平方误差所产生的差别对代价函数有影响。因此，如果一个当前的中心点对象被非中心点对象所代替，代价函数将计算平方误差值所产生的差别。替换的总代价是所有非中心点对象所产生的代价之和。如果总代价是负的，那么实际的平方误差将会减小，代表对象可以被非代表对象替代。如果总代价是正的，则当前的中心点被认为是可接受的，在本次迭代中没有变化。

优点：对噪声点/孤立点不敏感，具有较强的数据鲁棒性；

聚类结果与数据对象点输入顺序无关；

聚类结果具有数据对象平移和正交变换的不变性等。

缺点：在于聚类过程的高耗时性。对于大数据集，K-中心点聚类过程缓慢的主要原因在于：通过迭代来寻找最佳的聚类中心点集时，需要反复地在非中心点对象与中心点对象之间进行最近邻搜索，从而产生大量非必需的重复计算。