【机器学习】 — 3、KNN算法及其应用

最新推荐文章于 2024-08-11 02:00:50 发布

_smile_c

最新推荐文章于 2024-08-11 02:00:50 发布

阅读量60

点赞数

分类专栏：机器学习文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/weixin_70701760/article/details/134560396

版权

3 篇文章 1 订阅

订阅专栏

K近邻算法（K-nearest neighbors，KNN ），是一种很基本朴实的机器学习方法。

KNN 在我们日常生活中也有类似的思想应用，比如，我们判断一个人的人品，往往只需要观察他最密切的几个人的人品好坏就能得到结果了。这就是 KNN 的思想应用，KNN 方法既可以做分类，也可以做回归。在本篇内容中，我们来给大家展开讲解 KNN 相关的知识原理。

1、机器学习与分类问题

分类问题是机器学习非常重要的一个组成部分，属于监督学习，它的目标是根据已知样本的某些特征，判断一个样本属于哪个类别。

分类问题可以细分如下：

从算法的角度解决一个分类问题，我们的训练数据会被映射成 n 维空间的样本点（这里的 n 就是特征维度），我们需要做的事情是对 n 维样本空间的点进行类别区分，某些点会归属到某个类别。

常见的分类问题应用场景很多，我们选择几个进行举例说明：

在 KNN 分类中，输出是一个分类族群。一个对象的分类是由其邻居的「多数表决」确定的，K 个最近邻居（ K 为正整数，通常较小）中最常见的分类决定了赋予该对象的类别。

如何选择一个最佳的 K 值取决于数据。一般情况下，在分类时较大的 K 值能够减小噪声的影响，但会使类别之间的界限变得模糊。一个较好的 K 值能通过各种启发式技术（见超参数优化）来获取。
噪声和非相关性特征的存在，或特征尺度与它们的重要性不一致会使 K 近邻算法的准确性严重降低。对于选取和缩放特征来改善分类已经做了很多研究。一个普遍的做法是利用进化算法优化功能扩展，还有一种较普遍的方法是利用训练样本的互信息进行选择特征。
在二元（两类）分类问题中，选取 K 为奇数有助于避免两个分类平票的情形。在此问题下，选取最佳经验 K 值的方法是自助法。

不同类别的样本点，分布在空间的不同区域。K 近邻是基于空间距离较近的样本类别来进行分类，本质上是对于特征空间的划分。

K 近邻算法依赖于空间中相近的点做类别判断，判断距离远近的度量标准非常重要。距离的度量标准，对很多算法来说都是核心要素（比如无监督学习的聚类算法也很大程度依赖距离度量），也对其结果有很大的影响。

$L_p$ 距离（又称闵可夫斯基距离，Minkowski Distance）不是一种距离，而是一组距离的定义。

对于 KNN 算法而言， K 的大小取值也至关重要，如果选择较小的 K 值，意味着整体模型变得复杂（模型容易发生过拟合），模型学习的近似误差（approximation error）会减小，但估计误差（estimation error）会增大。

如果选择较大的 K 值，就意味着整体的模型变得简单，减少学习的估计误差，但缺点是学习的近似误差会增大。

在实际的应用中，一般采用一个比较小的 K值。并采用交叉验证的方法，选取一个最优的 K 值。

原始的 KNN 算法只考虑近邻不同类别的样本数量，而忽略掉了距离。
样本库容量依赖性较强对 KNN 算法在实际应用中的限制较大：有不少类别无法提供足够的训练样本，使得 KNN 算法所需要的相对均匀的特征空间条件无法得到满足，使得识别的误差较大。
K 值的确定： KNN 算法必须指定 K 值，K 值选择不当则分类精度不能保证。