《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(十二)2.2.1.1K均值算法总结

目录

2.2.1.1K均值算法

0、引言

(1)无监督学习

(2)数据聚类

1、模型介绍

2、数据描述

(1)数据下载

(2)数据描述

3、编程实践

4、性能测评

(1)ARI指标

(2)轮廓系数

5、特点分析


2.2.1.1K均值算法

0、引言

(1)无监督学习

无监督学习着重于发现数据本身的分布特点。与监督学习不同,无监督学习不需要对数据进行标记。这样,在节省大量人工的同时,也让可以利用的数据规模变得不可限量。

从功能角度讲,无监督学习模型可以发现数据的“群落”,同时也可以寻找“离群”的样本;另外对于特征维度非常高的数据样本,同样可以通过无监督的学习对数据进行降维,保留最具有区分性的低纬度特征。这些都是在海量数据处理中是非常实用的技术。

(2)数据聚类

数据聚类是无监督学习的主流应用之一。最为经典并且易用的聚类模型,当属K均值(K-means)算法该算法要求预先设定聚类的个数,然后不断更新聚类中心;经过几轮这样的迭代,最后的目标就是要让所有数据点到其所属聚类中心的平方和趋于稳定。

1、模型介绍

这是在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段,如图2-10所示:

①首先,随机布设K个特征空间内的点作为初始的聚类中心。

②然后,对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并且把该数据标记为从属于这个聚类中心。

③接着,在所有的数据上都被标记过聚类中心后,根据这些数据新分配的类簇,重新对K个聚类中心做计算。

④如果一轮下来,所有的数据点从属的聚类中心与上一次分配的类簇没有变化,那么迭代可以停止;否则回到步骤②继续循环。

2、数据描述

使用手写体数字图像数据的完整版本。

(1)数据下载

数据集的下载地址为:https://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/

备注:下载文件为:optdigits.names。

(2)数据描述

1. Title of Database: Optical Recognition of Handwritten Digits

2. Source:
	E. Alpaydin, C. Kaynak
	Department of Computer Engineering
	Bogazici University, 80815 Istanbul Turkey
	alpaydin@boun.edu.tr
	July 1998

3. Past Usage:
	C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their
	Applications to Handwritten Digit Recognition, 
	MSc Thesis, Institute of Graduate Studies in Science and 
	Engineering, Bogazici University.

	E. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika,
	to appear. ftp://ftp.icsi.berkeley.edu/pub/ai/ethem/kyb.ps.Z

4. Relevant Information:
	We used preprocessing programs made available by NIST to extract
	normalized bitmaps of handwritten digits from a preprinted form. From
	a total of 43 people, 30 contributed to the training set and different
	13 to the test set. 32x32 bitmaps are divided into nonoverlapping 
	blocks of 4x4 and the number of on pixels are counted in each block.
	This generates an inp
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值