【k近邻】 K-Nearest Neighbors算法汇总

原创于 2025-08-14 11:11:05 发布 · 1.1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #人工智能 #近邻算法 #k近邻算法

数理同时被 2 个专栏收录

156 篇文章

订阅专栏

机器学习方法

24 篇文章

订阅专栏

本文详细介绍了k近邻算法的基本概念，包括其工作原理、流程、距离度量的选择、数据维度归一化的重要性以及k值的选择策略。同时探讨了算法的优缺点，尤其是计算复杂度和空间复杂度问题。

k近邻算法思想

少数服从多数

k近邻算法原理

K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

例如下图展现了两类样本数据，分别由正方形和三角形表示，待分类数据由圆形表示，算法的目的是依据已知的样本数据判断待分类数据的类别，即对圆形数据分类。

我们考虑几种不同的K值：

如果K=1，圆点的最邻近的1个点是1个三角形，少数服从多数，基于统计的方法，可以判定这个待分类点属于三角形一类。
如果K=3，圆点的最邻近的3个点是2个三角形和1个正方形，少数服从多数，基于统计的方法，可以判定这个待分类点属于三角形一类。
如果K=5，圆点的最邻近的5个点是2个三角形和3个正方形，少数服从多数，基于统计的方法，可以判定这个待分类点属于正方形一类。
依此类推，k近邻算法的思路十分清晰，一言蔽之，即由最近的k个邻居决定待判别点的归属。

k近邻算法流程

对未知类别的数据集中的每个点依次执行以下操作

计算已知类别数据集众多点与当前点之间的距离
按照距离递增次序排序
选取与当前点距离最小的k个点
确定前k个点所在类别的出现频率
返回前k个点出现频率最高的类别作为当前点的预测分类

距离度量的选择

k近邻算法中需要按照距离递增次序排序，通常选取以下类型的距离：

$x_{i}=\left(x_{i}^{(1)},x_{i}^{(2)},\cdots,x_{i}^{(n)}\right)^{\mathrm{T}}$

欧式距离： $L_{2}(x_{i},x_{j})=\left(\sum_{l=1}^{n}|x_{i}^{(l)}-x_{j}^{(l)}|^{2}\right)^{\frac{1}{2}}$
Lp距离： $L_{p}(x_{i},x_{j})=\left(\sum_{l=1}^{n}\mid x_{i}^{(l)}-x_{j}^{(l)}\mid^{p}\right)^{\frac{1}{p}}$
曼哈顿距离： $L_{1}(x_{i},x_{j})=\sum_{l=1}^{n}|x_{i}^{(l)}-x_{j}^{(l)}|$
L $\infty$ 距离： $L_{\infty}(x_{i},x_{j})=\max_{l}\mid x_{i}^{(l)}-x_{j}^{(l)}\mid$

数据维度归一化

假设所使用的样本特征为 $\{(x_{i1},x_{i2},\ldots,x_{in})\}_{i=1}^m$ ，取每一轴上的最大值减最小值

$M_j=\max_{i=1,\ldots,m}x_{ij}-\min_{i=1,\ldots,m}x_{ij}$

随后在计算距离时将每一个坐标轴除以相应的 $M_j$ 以进行归一化

$d((y_1,\ldots,y_n),(z_1,\ldots,z_n))=\sqrt{\sum_{j=1}^n\left(\frac{y_j}{M_j}-\frac{z_j}{M_j}\right)^2}$

数据维度归一化的必要性

当使用多维度数据计算距离时，数据维度的归一化是及其必要的。

例如，以身高(cm)与脚码（尺码）大小作为特征值，判断男性或者女性。5个训练样本分布如下：

A [(179,42),男]，B [(178,43),男]，C [(165,36)女]，D [(177,42),男]，E [(160,35),女]

可以发现，第一维身高特征是第二维脚码特征的4倍左右，在计算距离度量的时候，如果不进行数据维度的归一化，算法就会偏向于第一维特征，这会造成俩个特征并不是等价重要的，最终可能会导致距离计算错误，从而导致预测错误。

以测试样本 F[(167,43),男]为例，取k=3，分别算出F离训练样本的欧式距离，然后选取最近的3个，多数类别就是我们最终的结果，计算结果如下：

$\begin{gathered} AF=\sqrt{\left(167-179\right)^2+\left(43-42\right)^2}=\sqrt{145} \\ BF=\sqrt{\left(167-178\right)^2+\left(43-43\right)^2}=\sqrt{121} \\ CF=\sqrt{\left(167-165\right)^2+\left(43-36\right)^2}=\sqrt{53} \\ DF=\sqrt{\left(167-177\right)^2+\left(43-42\right)^2}=\sqrt{101} \\ EF=\sqrt{\left(167-160\right)^2+\left(43-35\right)^2}=\sqrt{103} \end{gathered}$