KNN算法 | K邻近：基础概念

ToBeCertain

已于 2024-03-31 09:53:04 修改

阅读量1.1k

点赞数 25

分类专栏：机器学习文章标签：算法 KNN 分类问题回归问题

于 2024-03-29 10:29:21 首次发布

本文链接：https://blog.csdn.net/weixin_49613115/article/details/137079370

版权

机器学习专栏收录该内容

27 篇文章 4 订阅

订阅专栏

一. KNN算法原理

K近邻(K-nearest neighbors, KNN)，既可以应用于分类应用中，也可以应用在回归应用中

	一种基本的机器学习算法
	k近邻：k个最近的邻居的意思，即每个样本都可以用它最接近的 k个邻居来代表
		比如：近朱者赤，近墨者黑

KNN在做回归和分类的主要区别在于最后预测的决策方式：

KNN在分类预测时：一般采用多数表决法
KNN在回归预测时，一般采用平均值法

一句话简单说，KNN的原理就是相似的人聚在一起

	KNN算法分类的具体操作：
		从训练集合中获取K个离待测样本距离最近的样本数据
		根据获取到的K个样本数据来预测当前待预测样本的目标属性值

在这里插入图片描述
很显然，根据上图可以得到，K=3时，绿色圆的预测值为红色三角(多数投票)

将上述分类操作抽象为数学公式，就会得到：
$\hat{y_{i}}=\underset{C_{j}}{\operatorname{argmax}} \sum_{x_{i} \in N_{k}(x)} I\left(y_{i}=C_{j}\right) \quad(i=1,2, \ldots, N, j=1,2, \ldots, C)$
参数说明:

$\mathrm{N}$ 是训练集中的样本数量
C是类别数量
$C_{j}$ 是第 $\mathrm{j}$ 个类别
$\mathrm{x}_{\mathrm{i}}$ 是第 $\mathrm{i}$ 个样本的特征向量
$\mathrm{y}_{\mathrm{i}}$ 是第 $\mathrm{i}$ 个样本的标签
$k$ 是KNN模型的 $k$ 值
$\mathrm{N}_{\mathrm{k}}(\mathrm{x})$ 样本 $\mathrm{x}$ 的 $\mathrm{k}$ 个最近邻组成的集合
$\hat{y}_{i}$ 是第 $\mathrm{i}$ 个样本的预测类别

公式解释：
当送入一个样本 $x_{i}$ 时，取给定的K个邻居
统计样本 $x_{i}$ 的K个近邻等于 $C_{j}$ 类别的情况， $I$ 函数返回1
此时我们可以得到样本K个邻居中不同类别的个数
求K个邻居中出现个数最多的 $C$ 即为样本 $x_{i}$ 的预测值 $\hat{y_{i}}$

二. KNN算法三要素

对于上面给出的示例图，我们做进一步的分析
在这里插入图片描述
这里我们可以看到，预测值的结果与K邻居的个数有密切关联

如果K=3，绿色圆的预测结果为红色三角形
如果K=5，绿色圆的预测结果为蓝色正方形

KNN三要素：

	K值的选择
		K值的选择：
			一般根据样本分布选择一个较小的值，然后通过交叉验证来选择一个比较合适的最终值；
				当选择比较小的K值的时候， 表示使用较小领域中的样本进行预测，训练误差会减小，但是会导致模型变得复杂，容易过拟合；
				当选择较大的K值的时候，表示使用较大领域中的样本进行预测，训练误差会增大，同时会使模型变得简单，容易导致欠拟合； 
		距离的度量：
			一般使用欧氏距离
		决策规则：
			在分类模型中，主要使用多数表决法或者加权多数表决法；
			在回归模型中，主要使用平均值法或者加权平均值法

1. K值的选择

k值的减小就意味着整体模型变得复杂，容易发生过拟合
k值的增大就意味着整体的模型变得简单，容易发生欠拟合

在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值

对于K值得选择，我们可以通过定义KNN的损失函数得到：

	注意：该损失函数是用来选择 k 值的，而不用于训练

对于分类问题，KNN模型的损失函数是
$L=\frac{1}{N} \sum_{x_{i} \in N_{k}(x)} I\left(y_{i}=C_{j}\right) \quad(i=1,2, \ldots, N, j=1,2, \ldots, C)$

本质：计算准确率

2. 距离

2.1 欧氏距离

$\sqrt{\sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}}$

2.2 曼哈顿距离(城市街区距离)

$\sum_{k=1}^{n}\left|x_{1 k}-x_{2 k}\right|$

2.3 切比雪夫距离(棋盘距离)

$\max \left(\left|x_{1 i}-x_{2 i}\right|\right)$
在这里插入图片描述

2.4 闵可夫斯基距离

$\sqrt[p]{\sum_{k=1}^{n}\left|x_{1 k}-x_{2 k}\right|^{p}}$

当 p=1 的时候，是曼哈顿距离;
当 p=2 的时候，是欧式距离;
当 p=∞ 的时候，是切比雪夫距离

2.5 标准化欧式距离

$\sqrt{\sum_{i=1}^{n} \frac{\left(u_{i}-v_{i}\right)^{2}}{V\left[x_{i}\right]}}$

	本质做法为：先对数据进行标准化，再计算欧氏距离
	
	计算本质：计算一个特征的方差，方差开根号为标准差

2.6 余弦距离

$1-\frac{[x, y]}{\|x\| \cdot\|y\|}$

其中，余弦相似度(即 $\cot \theta$ )为: $\quad k(x, y)=\frac{[x, y]}{\|x\| \cdot\|y\|}$

余弦相似度的取值范围是 $[- 1, 1]$
余弦距离的取值范围是 $[0, 2]$

	如果两个向量方向相同，则余弦距离为0  
	如果两个向量的方向相反，则余弦距离为2

下面我们举一个例子：
假如新闻X和新闻Y对应向量分别是 $x_{1}, x_{2}, \ldots, x_{6400}$ 和
$\mathrm{y}_{1}, \mathrm{y}_{2}, \ldots, \mathrm{y}_{6400}$ ，则它们的余弦相似度为:

$\cos \theta=\frac{x_{1} y_{1}+x_{2} y_{2}+\cdots+x_{6400} y_{6400}}{\sqrt{x_{1}^{2}+x_{2}^{2}+\cdots+x_{6400}^{2}} \cdot \sqrt{y_{1}^{2}+y_{2}^{2}+\cdots+y_{6400}^{2}}}$

	当两条新闻向量夹角余弦等于1时，这两条新闻完全重复（用这个办法可以删除爬虫所收集网页中的重复网页）
	当夹角的余弦值接近于1时，两条新闻相似（可以用作文本分类）
	夹角的余弦越小，两条新闻越不相关

欧氏距离与余弦距离对比

在这里插入图片描述

这里我们用一个例子说明两种距离的关注点：

示例1 ，对于某两部电视剧：
用户A的观看向量为 $(0, 1)$ ，用户B的观看向量为 $(1, 0)$

	在分析两个用户对于不同电视剧的偏好时，更关注相对差异，显然应当使用余弦距离
		且欧氏距离很小

示例2 ，对于某个游戏平台：
以登陆次数(单位：次)和平均游戏时长(单：分钟)作为特征时
用户A的向量为 $(1, 10)$ 、用户B的向量为 $(10, 100)$

	在分析两个用户活跃度时，更关注数值绝对差异，应当使用欧氏距离
		且余弦距离会认为两个用户距离很近

总结：

余弦距离注重两个向量的空间夹角，与方向上的差异直接相关

欧氏距离注重两个向量的绝对距离，与位置坐标直接相关

 注意：
 	余弦距离在形容两个特征向量之间的关系方面有很大用处
 	比如：人脸识别，推荐系统等

3. 决策规则

3.1 KNN分类任务

在这里插入图片描述

多数表决法

	每个邻近样本的权重是一样

红色： $\frac{3}{5}$

黄色： $\frac{2}{5}$

预测结果为：红色

加权多数表决法

	每个邻近样本的权重是不一样的
	一般情况下采用权重和距离成反比的方式来计算，也就是说最终预 测结果是出现权重最大的那个类别

这里假设红色到预测目标的距离为2，黄色到预测目标的距离为1

红色：权重 $\frac{1}{2}$ ，归一化后单个权重为 $\frac{1}{7}$

黄色：权重 $\frac{1}{1}$ ，归一化后单个权重为 $\frac{2}{7}$

预测结果为：黄色

3.2 KNN回归任务

在这里插入图片描述

平均值法

	每个邻近样本的权重是一样

预测结果为： $\frac{13}{5}=2.6$

加权平均值法

	每个邻近样本的权重是不一样的
	一般情况下采用权重和距离成反比的方式来计算
	在计算均值的时候进行加权操作

这里假设圆3到预测目标的距离为2，圆2到预测目标的距离为1

圆3：权重 $\frac{1}{2}$ ，归一化后单个权重为 $\frac{1}{7}$ ，

圆2：权重 $\frac{1}{1}$ ，归一化后单个权重为 $\frac{2}{7}$

预测结果为： $\frac{1}{7}*3*3+\frac{2}{7}*2*2=\frac{17}{7}=2.43$

感谢阅读🌼
如果喜欢这篇文章，记得点赞👍和转发🔄哦！
有任何想法或问题，欢迎留言交流💬，我们下次见！
本文相关代码存放位置
【手写KNN算法代码实现】

祝愉快🌟！

ToBeCertain

关注

25
点赞
踩
28

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录