通俗易懂之k临近算法

东方瑞通终身学习

于 2021-03-24 10:03:49 发布

阅读量665

点赞数

分类专栏：技术解读职业解读文章标签：经验分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45023479/article/details/115162976

版权

技术解读同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。

它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本几种数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。

举个简单的例子，我们可以使用k-近邻算法分类一个电影是爱情片还是动作片。
在这里插入图片描述
距离度量：

我们已经知道k-近邻算法根据特征比较，然后提取样本集中特征最相似数据(最邻近)的分类标签。那么，如何进行比较呢？比如，我们怎么判断红色圆点标记的电影所属的类别呢？
在这里插入图片描述
我们可以从散点图大致推断，这个红色圆点标记的电影可能属于动作片，因为距离已知的那两个动作片的圆点更近。

k-近邻算法用什么方法进行判断呢？没错，就是距离度量。这个电影分类的例子有2个特征，也就是在2维实数向量空间，可以使用我们高中学过的两点距离公式计算距离
在这里插入图片描述
通过计算，我们可以得到如下结果：

(101,20)->动作片(108,5)的距离约为16.55

(101,20)->动作片(115,8)的距离约为18.44

(101,20)->爱情片(5,89)的距离约为118.22

(101,20)->爱情片(1,101)的距离约为128.69

k-近邻算法大致步骤：

计算已知类别数据集中的点与当前点之间的距离；
按照距离递增次序排序；
选取与当前点距离最小的k个点；
确定前k个点所在类别的出现频率；
返回前k个点所出现频率最高的类别作为当前点的预测分类。

优点：

简单好用，容易理解，精度高，理论成熟，既可以用来做分类也可以用来做回归；

可用于数值型数据和离散型数据；

训练时间复杂度为O(n)；无数据输入假定；

对异常值不敏感

缺点：

计算复杂性高；空间复杂性高；

样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；

一般数值很大的时候不用这个，计算量太大。但是单个样本又不能太少，否则容易发生误分。

最大的缺点是无法给出数据的内在含义

注意：本文由东方瑞通讲师梁鹏老师发表于讲师原创专区，转载请注明出处！

东方瑞通终身学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
通俗易懂之k临近算法

k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本几种数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。举个简单的例子，我们可以使用k-近邻算法分类一个电影是爱情片还是动作片。距离度量：我们已经知道k-近邻算
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。