《Python机器学习及实践：从零开始通往Kaggle竞赛之路》第2章基础篇学习笔记（十二）2.2.1.1K均值算法总结

最新推荐文章于 2022-07-30 22:20:57 发布

wyatt007

最新推荐文章于 2022-07-30 22:20:57 发布

阅读量646

点赞数 2

分类专栏： Python机器学习及实践

本文链接：https://blog.csdn.net/wyatt007/article/details/105662768

版权

2.2.1.1K均值算法

0、引言

（1）无监督学习

无监督学习着重于发现数据本身的分布特点。与监督学习不同，无监督学习不需要对数据进行标记。这样，在节省大量人工的同时，也让可以利用的数据规模变得不可限量。

从功能角度讲，无监督学习模型可以发现数据的“群落”，同时也可以寻找“离群”的样本；另外对于特征维度非常高的数据样本，同样可以通过无监督的学习对数据进行降维，保留最具有区分性的低纬度特征。这些都是在海量数据处理中是非常实用的技术。

（2）数据聚类

数据聚类是无监督学习的主流应用之一。最为经典并且易用的聚类模型，当属K均值（K-means）算法。该算法要求预先设定聚类的个数，然后不断更新聚类中心；经过几轮这样的迭代，最后的目标就是要让所有数据点到其所属聚类中心的平方和趋于稳定。

1、模型介绍

这是在数据聚类中是最经典的，也是相对容易理解的模型。算法执行的过程分为4个阶段，如图2-10所示：

①首先，随机布设K个特征空间内的点作为初始的聚类中心。

②然后，对于根据每个数据的特征向量，从K个聚类中心中寻找距离最近的一个，并且把该数据标记为从属于这个聚类中心。

③接着，在所有的数据上都被标记过聚类中心后，根据这些数据新分配的类簇，重新对K个聚类中心做计算。

④如果一轮下来，所有的数据点从属的聚类中心与上一次分配的类簇没有变化，那么迭代可以停止；否则回到步骤②继续循环。

2、数据描述

使用手写体数字图像数据的完整版本。

（1）数据下载

数据集的下载地址为：https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/。

备注：下载文件为：optdigits.names。

（2）数据描述

1. Title of Database: Optical Recognition of Handwritten Digits

2. Source:
	E. Alpaydin, C. Kaynak
	Department of Computer Engineering
	Bogazici University, 80815 Istanbul Turkey
	alpaydin@boun.edu.tr
	July 1998

3. Past Usage:
	C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their
	Applications to Handwritten Digit Recognition, 
	MSc Thesis, Institute of Graduate Studies in Science and 
	Engineering, Bogazici University.

	E. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika,
	to appear. ftp://ftp.icsi.berkeley.edu/pub/ai/ethem/kyb.ps.Z

4. Relevant Information:
	We used preprocessing programs made available by NIST to extract
	normalized bitmaps of handwritten digits from a preprinted form. From
	a total of 43 people, 30 contributed to the training set and different
	13 to the test set. 32x32 bitmaps are divided into nonoverlapping 
	blocks of 4x4 and the number of on pixels are counted in each block.
	This generates an inp

最低0.47元/天解锁文章

wyatt007

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
《Python机器学习及实践：从零开始通往Kaggle竞赛之路》第2章基础篇学习笔记（十二）2.2.1.1K均值算法总结

2.2.1.1K均值算法0、引言（1）无监督学习介绍无监督学习着重于发现数据本身的分布特点。与监督学习不同，无监督学习不需要对数据进行标记。这样，在节省大量人工的同时，也让可以利用的数据规模变得不可限量。从功能角度讲，无监督学习模型可以发现数据的“群落”，同时也可以寻找“离群”的样本；另外对于特征维度非常高的数据样本，同样可以通过无监督的学习对数据进行降维，保留最具有区分性的低纬度...
复制链接

扫一扫