目录
2.2.1.1K均值算法
0、引言
(1)无监督学习
无监督学习着重于发现数据本身的分布特点。与监督学习不同,无监督学习不需要对数据进行标记。这样,在节省大量人工的同时,也让可以利用的数据规模变得不可限量。
从功能角度讲,无监督学习模型可以发现数据的“群落”,同时也可以寻找“离群”的样本;另外对于特征维度非常高的数据样本,同样可以通过无监督的学习对数据进行降维,保留最具有区分性的低纬度特征。这些都是在海量数据处理中是非常实用的技术。
(2)数据聚类
数据聚类是无监督学习的主流应用之一。最为经典并且易用的聚类模型,当属K均值(K-means)算法。该算法要求预先设定聚类的个数,然后不断更新聚类中心;经过几轮这样的迭代,最后的目标就是要让所有数据点到其所属聚类中心的平方和趋于稳定。
1、模型介绍
这是在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段,如图2-10所示:
①首先,随机布设K个特征空间内的点作为初始的聚类中心。
②然后,对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并且把该数据标记为从属于这个聚类中心。
③接着,在所有的数据上都被标记过聚类中心后,根据这些数据新分配的类簇,重新对K个聚类中心做计算。
④如果一轮下来,所有的数据点从属的聚类中心与上一次分配的类簇没有变化,那么迭代可以停止;否则回到步骤②继续循环。
2、数据描述
使用手写体数字图像数据的完整版本。
(1)数据下载
数据集的下载地址为:https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/。
备注:下载文件为:optdigits.names。
(2)数据描述
1. Title of Database: Optical Recognition of Handwritten Digits
2. Source:
E. Alpaydin, C. Kaynak
Department of Computer Engineering
Bogazici University, 80815 Istanbul Turkey
alpaydin@boun.edu.tr
July 1998
3. Past Usage:
C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their
Applications to Handwritten Digit Recognition,
MSc Thesis, Institute of Graduate Studies in Science and
Engineering, Bogazici University.
E. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika,
to appear. ftp://ftp.icsi.berkeley.edu/pub/ai/ethem/kyb.ps.Z
4. Relevant Information:
We used preprocessing programs made available by NIST to extract
normalized bitmaps of handwritten digits from a preprinted form. From
a total of 43 people, 30 contributed to the training set and different
13 to the test set. 32x32 bitmaps are divided into nonoverlapping
blocks of 4x4 and the number of on pixels are counted in each block.
This generates an inp