机器学习面试题——KNN（K Nearest Neighbors）K近邻分类算法

冰露可乐

已于 2022-04-30 23:45:07 修改

阅读量1.1k

点赞数 1

分类专栏：大厂算法岗机器学习深度学习面试题文章标签：大厂笔试题面试题机器学习深度学习 KNN K近邻算法

于 2022-04-30 23:03:04 首次发布

本文链接：https://blog.csdn.net/weixin_46838716/article/details/124520422

版权

大厂算法岗机器学习深度学习面试题专栏收录该内容

123 篇文章 156 订阅

订阅专栏

机器学习面试题——KNN（K Nearest Neighbors）K近邻分类算法

提示：
KNN可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一，
注意KNN算法是有监督学习中的分类算法，它看起来和另一个机器学习算法Kmeans有点像（Kmeans是无监督学习算法），但却是有本质区别的。
那么什么是KNN算法呢，接下来我们就来介绍介绍吧。

文章目录

机器学习面试题——KNN（K Nearest Neighbors）K近邻分类算法
@[TOC](文章目录)

KNN介绍一下
距离包括欧式距离和曼哈顿距离
KNN的K值怎么选

KNN优缺点
优点：
缺点：

KNN数据需要归一化吗？
KNN三要素说一下
欧式距离与曼哈顿距离区别
knn的k设置的过大会有什么问题
啥时候用啥ML算法？
总结

KNN介绍一下

人以类聚，物以群分——同流合污，近朱者赤近墨者黑！

KNN的全称是K Nearest Neighbors，意思是K个最近的邻居，
KNN的原理就是：
当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于哪个类别。
通过方差表示“距离”

在这里插入图片描述
图中绿色的点就是我们要预测的那个点，假设K=3。
那么KNN算法就会找到与它距离最近的三个点（这里用圆圈把它圈起来了），
看看哪种类别多一些，比如这个例子中是蓝色三角形多一些，新来的绿色点就归类到蓝三角了。
但是呢，当K=5的时候，判定就变成不一样了。
这次变成红圆多一些，所以新来的绿点被归类成红圆。
从这个例子中，我们就能看得出K的取值是很重要的。
在这里插入图片描述

距离包括欧式距离和曼哈顿距离

KNN算法中使用更多的是欧式距离，二维空间两个点的欧式距离计算公式如下：
在这里插入图片描述
拓展到多维空间，则公式变成这样：

KNN的K值怎么选

答：交叉验证法
尝试：看哪个k更好，通过不断验证K不同的取值来确定。
通过交叉验证（将样本数据按照一定比例，拆分出训练用的数据和验证用的数据，比如6：4拆分出部分训练数据和验证数据），
从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一个比较合适的K值。
通过交叉验证计算方差后你大致会得到下面这样的图：
在这里插入图片描述
选择一个较大的临界K点，当它继续增大或减小的时候，错误率都会上升，比如图中的K=10
又是手肘法？和k-means聚类类似