sklearn.KMeans解析

最新推荐文章于 2024-06-24 19:08:35 发布

情感大师何以琛

最新推荐文章于 2024-06-24 19:08:35 发布

阅读量2.7k

点赞数 1

分类专栏：数据挖掘文章标签： kmeans算法数据挖掘 python 聚类聚类算法

本文链接：https://blog.csdn.net/youhebuke12138/article/details/110046004

版权

sklearn版本

实例1 Iris,鸢尾花数据集(UC Irvine Machine Learning Repository)
Iris可以从sklearn包内部导入，常常用作分类的训练数据集。这里为了方便展示聚类效果(二维在平面图中效果明显)，选取Iris的前两个维度作为聚类依据。代码参见Iris_KMeans.py。左图为全部数据点，右图为KMeans聚类(n_cluseters=3,Iris数据集本就采集自3种鸢尾花)结果，不同颜色代表不同簇。
实例2 RandomData,在二维坐标轴排列成一条直线的随机数据
这一个例子主要展现不同簇数量(n_cluseters)对聚类效果的影响。为此首先用make_blobs生成属于4个簇的随机点，最后用Calinski-Harabasz Index评估方式为不同簇数量的聚类打分，代码参见RandomData_KMeans.py。最左图为全部数据点。剩余三张图分别为簇数量为3、4、5的KMeans聚类结果。显然n_cluseters=4时效果是最好的。

sklearn中包括KMeans和MiniBatchKMeans两种k-means聚类，后者对大规模数据集进行采样后执行k-means，避免计算量过大。本节分析sklearn.KMeans中的主要函数。

关注