极简机器学习范例——分类——K近邻算法

最新推荐文章于 2018-09-11 16:54:53 发布

zhxue123

最新推荐文章于 2018-09-11 16:54:53 发布

阅读量2.4k

点赞数

分类专栏： MachineLearning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhxue123/article/details/18900315

版权

MachineLearning 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一、用处

主要用来分类

例子：

1）电影按题材分类：例如动作片，爱情片等；可以根据视频中的打斗、亲吻次数来分类，动作片中，打斗较多，但也可能有一些亲吻镜头，反之亦然；打斗和亲吻可以被视为特征向量，以此使用K近邻算法构造程序，自动划分电影题材类型；

2）约会网站人群分类：很喜欢、一般、不喜欢；把一下属性数据作为特征：每年的飞行里程，每周消费冰激凌，玩游戏时间；根据特征构建分类器

3）手写识别系统：把图像转化为向量（数组），根据向量某位置中的数据0或1来区分识别文字

二、算法核心思想

1）选取特征（特征即属性）

2）计算待分类数据与样本数据（已分好类的数据）的距离。一般是多维特征，需对每个特征进行归一化处理：newsValue=(oldValue-Smin)/(Smax-Smin)

3）取距离最近的K个数值，待分类数据的类别等于这K个数据中出现频率最高的分类。

4）用样本集中90%的数据进行训练，然后再用剩下10%的数据进行检验。求出分类器的正确率。

三、KNN分类的优缺点及适用数据类型

优点

精度高；对异常值不敏感；无数据输入假定。

缺点

计算复杂度高、空间复杂度高。

适用数据类型

数值型和标称型

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。