机器学习—有监督学习—KNN-K近邻法(k-NearestNeighbor)

最新推荐文章于 2024-07-14 13:30:06 发布

等不到烟火清凉

最新推荐文章于 2024-07-14 13:30:06 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习 KNN K近邻法

本文链接：https://blog.csdn.net/weixin_45252110/article/details/99308060

版权

机器学习专栏收录该内容

40 篇文章 12 订阅

订阅专栏

一、KNN简介

KNN（K-Nearest Neighbor） 最邻近分类算法是数据挖掘分类（classification）技术中最简单的算法之一，其指导思想是”近朱者赤，近墨者黑“，即由你的邻居来推断出你的类别。

实现原理：为了判断未知样本的类别，以所有已知类别的样本作为参照，计算未知样本与所有已知样本的距离，从中选取与未知样本距离最近的K个已知样本，根据少数服从多数的投票法则（majority-voting），将未知样本与K个最邻近样本中所属类别占比较多的归为一类。

KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成反比。

二、kNN的三个基本要素：距离度量、k值的选择和决策规则

1、距离度量
在特征空间中两个实例点的距离是两个实例点相似程度的反应（距离越近，相似度越高）。kNN模型使用的距离一般是欧氏距离，但也可以是其他距离如：曼哈顿距离。
大佬距离度量的链接

2、k值的选择
k值的选择会对KNN模型的结果产生重大影响。选择较大的k值，相当于用较大邻域中的训练实例进行预测，模型会考虑过多的邻近点实例点，甚至会考虑到大量已经对预测结果没有影响的实例点，会让预测出错；选择较小的k值，相当于用较小邻域中的训练实例进行预测，会使模型变得敏感（如果邻近的实例点恰巧是噪声，预测就会出错）。

在应用中，k值一般取一个比较小的数值。通常采用一些验证方法来选取最优的k值。
K的取值尽量要取奇数，以保证在计算结果最后会产生一个较多的类别，如果取偶数可能会产生相等的情况，不利于预测。

3、决策规则
分类：往往是多数表决，即由输入实例的k个邻近的训练实例中的多数类决定待测实例的类。或带权投票
回归：取平均值。或带权取平均值