KNN算法和kd树详解（例子+图示）

最新推荐文章于 2024-08-15 15:37:30 发布

zzpzm

最新推荐文章于 2024-08-15 15:37:30 发布

阅读量2.3w

点赞数 148

分类专栏：机器学习文章标签： knn kd tree

本文链接：https://blog.csdn.net/zzpzm/article/details/88565645

版权

机器学习专栏收录该内容

0 篇文章 1 订阅

订阅专栏

一、KNN算法

KNN(K-NearestNeighbor)算法既可以用于分类，也可用于回归。这里介绍他的分类用法。

训练集：一堆拥有标签的m维数据，可以表示为：

其中，是标签，即所属类别。

目标：一个测试数据x，预测其所属类别。

算法：

计算测试点x与训练集中每一个数据的“距离”
将所求的距离进行升序排序，选择前K个
在上一步中所得到的K个数据中，根据决策规则（如多数表决）决定x的类别预测结果

虽然KNN算法用短短的三步就能概括，但是大有文章可做

1、“距离”是啥距离？

话不多说，先摆个公式压压惊

上式表示的是：m维数据与的距离就是这么求的。

当p=2时，这个距离就称为欧式距离，是不是很熟悉？

当p=1时，称为曼哈顿距离

根据数据特性的不同，我们可以选择不同的距离来度量。

2、K值如何选择

我们一直在谈KNN，那这个K我们该如何选择呢？

K值太小，预测结果会对近邻的训练数据十分敏感，模型过于复杂，易发生过拟合

K值太大，会导致分类结果模糊，模型过于简单。

对于k值的选择有这么几种方法：交叉验证、贝叶斯方法、bootstrap。

一般是取个较小值，采用交叉验证法来选取最优的K值。

3、决策规则是啥？

一般是选用多数表决规则，即在K个数据中，哪种类别出现的次数最多，这个类别就是x的预测类别。

二、kd树

以上说完，我们就要进入实现环节了。那么问题来了，我们上面说的是计算测试点和训练集中的每一个数据的距离，然后进行排序。数据量少的时候完全问题，可是当数据量大的时候，臣妾做不到啊！！！

这时候，我们聪明的前辈就提出了kd树（k-dimensional tree）。这是一颗什么样的树呢？

kd树可以帮助我们在很快地找到与测试点最邻近的K个训练点。不再需要计算测试点和训练集中的每一个数据的距离。

kd树是二叉树的一种，是对k维空间的一种分割，不断地用垂直于坐标轴的超平面将k维空间切分，形成k维超矩形区域，kd树的每一个结点对应于一个k维超矩形区域。

注意：这里的k维的k表示的是数据的维度，上文中我们称为m维数据。（不要理解为K个训练点的K，你看我甚至把训练点的K大写，维度的k小写）

kd树的构造

首先我们需要构造kd数，构造方法如下：

选取为坐标轴，以训练集中的所有数据坐标中的中位数作为切分点，将超矩形区域切割成两个子区域。将该切分点作为根结点，由根结点生出深度为1的左右子结点，左节点对应坐标小于切分点，右结点对应坐标大于切分点
对深度为j的结点，选择为切分坐标轴，，以该结点区域中训练数据坐标的中位数作为切分点，将区域分为两个子区域，且生成深度为j+1的左、右子结点。左节点对应坐标小于切分点，右结点对应坐标大于切分点
重复2，直到两个子区域没有数据时停止。

是不是现在还是懵懵懂懂的，甚至上面的构造方法只是一眼扫过。

不慌，有句话叫无图言X，接下来就是关门放图的时候。

我们用图像来走算法！

我们有二维数据集

将他们在坐标系中表示如下：

开始：选择为坐标轴，中位数为6，即（6，5）为切分点，切分整个区域

再次划分区域

以为坐标轴，选择中位数，可知左边区域为-3，右边区域为-12。所以左边区域切分点为（1，-3），右边区域切分点坐标为（17，-12）

再次对区域进行切分，同上步，我们可以得到切分点，切分结果如下：

最后分割的小区域内只剩下一个点或者没有点。我们得到最终的kd树如下图

kd树完成K近邻的搜索

当我们完成了kd树的构造之后，我们就要想怎么利用kd树完成K近邻的搜索呢？？？

接下来，又是抛出算法的时候了

为了方便说明，我们采用二维数据的栗子。假设现在要寻找p点的K个近邻点（p点坐标为（a,b）），也就是离p点最近的K个点。设S是存放这K个点的一个容器。

新鲜的算法来了：

根据p的坐标和kd树的结点向下进行搜索（如果树的结点是以来切分的，那么如果p的坐标小于c，则走左子结点，否则走右子结点）
到达叶子结点时，将其标记为已访问。如果S中不足k个点，则将该结点加入到S中；如果S不空且当前结点与p点的距离小于S中最长的距离，则用当前结点替换S中离p最远的点
如果当前结点不是根节点，执行（a）；否则，结束算法