KNN算法

weixin_59049646

于 2024-03-31 10:40:09 发布

阅读量1.1k

点赞数 22

文章标签：算法

本文链接：https://blog.csdn.net/weixin_59049646/article/details/137192999

版权

本文介绍了KNN（K-NearestNeighbor）机器学习算法的基本原理，包括其分类和回归应用，以及简单易用、预测效果好等优点，同时讨论了对内存和预测速度的需求，以及对异常值的不敏感性。文章还深入剖析了K值的选择对算法性能的影响，以及过拟合和欠拟合的问题。

摘要由CSDN通过智能技术生成

1.概述

KNN（K-Nearest Neighbor）算法是机器学习算法中最基础、最简单的算法之一。它既能用于分类，也能用于回归。KNN通过测量不同特征值之间的距离来进行分类。

KNN算法的思想非常简单：对于任意n维输入向量，分别对应于特征空间中的一个点，输出为该特征向量所对应的类别标签或预测值。

KNN算法是一种非常特别的机器学习算法，因为它没有一般意义上的学习过程。它的工作原理是利用训练数据对特征向量空间进行划分，并将划分结果作为最终算法模型。存在一个样本数据集合，也称作训练样本集，并且样本集中的每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。

输入没有标签的数据后，将这个没有标签的数据的每个特征与样本集中的数据对应的特征进行比较，然后提取样本中特征最相近的数据（最近邻）的分类标签。

一般而言，我们只选择样本数据集中前k个最相似的数据，这就是KNN算法中K的由来，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的类别，作为新数据的分类。

简单来讲，KNN就是“近朱者赤，近墨者黑”的一种分类算法。

2.优缺点

KNN算法优点

简单易用，相比其他算法，KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。
模型训练时间快，上面说到KNN算法是惰性的，这里也就不再过多讲述。
预测效果好。
对异常值不敏感

KNN算法缺点

对内存要求较高，因为该算法存储了所有训练数据
预测阶段可能很慢
对不相关的功能和数据规模敏感

适用场景

多分类问题
稀有事件分类问题
文本分类问题
模式识别
聚类分析
样本数量较少的分类问题

计算当前点与所有点之间的距离
距离按照升序排列
选取距离最近的K个点
统计这K个点所在类别出现的频率
这K个点中出现频率最高的类别作为预测的分类

3.代码实现

假设有下面一些电影，不同的电影有不同的镜头比例，我们用KNN来进行分类。