机器学习之KNN算法（KD Tree方法）

最新推荐文章于 2024-06-04 16:42:31 发布

久笙&

最新推荐文章于 2024-06-04 16:42:31 发布

阅读量1.9k

点赞数 1

分类专栏：算法文章标签：机器学习算法

本文链接：https://blog.csdn.net/weixin_56175042/article/details/120911720

版权

算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、KNN算法原理
KNN（K-nearst neighbors）算法，又叫K近邻算法，它是一种有监督学习的机器学习算法。对新的实例，依据给定的距离公式(二维空间一般采用欧氏距离)，根据其k个最近邻的训练实例的类别，通过多数表决的方式进行预测。意思就是说每个样本都可以用它最接近的k个邻居来代表。
原理如图：
在这里插入图片描述
原理：图中的数据集都已经分好了类，即打好了标签，一类是橙色的三角形，一类是蓝色的圆形，中间的六角形是待分类的数据
1.如果K=5，那么离六边形最近的有三个三角形和两个圆形，因为三个三角形占优势，依据多数投票法，中间的六边形就属于橙色的三角形一类。
2.如果K=7，那么离六边形最近的有三个三角形和四个圆形，因为四个圆形占优势，依据多数投票法，中间的六边形就属于蓝色的圆形一类。(KNN最基本的原理)
主要缺点：当样本数量较少时，我么可以使用遍历所有样本的方式，找出最近的k的邻居。然而，如果数据集庞大，这种方式会造成大量的时间开销。由此引入KD-Tree(KD树)方法，来选择k个邻居

二、构建KD树
KD树（KD-Tree）是一个二叉树，构建KD树步骤如下(假设样本具有n个特征)：
1.分别计算n个特征的方差，选择方差最大的一个特征(假设方差为a)。
2.对特征a，计算其中位数值median,以该值作为样本划分点(根节点)。
3.针对样本集中的其他数据，根据特征a进行划分，所有小于median的样本划分在左子树中，所有大于median的样本划分到右子树中。
4.分别对左右子树递归进行以上步骤，知道左右子树的样本数量不超过leaf_size指定的数量为止。
原理：
1.给定以下数据，构建KD树 (2,3) (5,4) (9,6) (4,7) (8,1) (7,2)
在这里插入图片描述

在这里插入图片描述
最终得出以下二叉树：

2邻居选择
先将二叉树转化到二维空间中

以（2,4.5）为样本选择邻居。
步骤：
1.将待测样本插入到KD-Tree中，使得该待测样本成为KD-Tree的一个子叶子节点。
2.在插入的过程中，会依次遍历KD-Tree的若干个节点，将遍历的节点依次压入堆栈中。
3.同时，遍历的过程中，会依次计算待测样本与每个遍历节点的距离，并保存最短的距离。
如图：

在这里插入图片描述
4.以待测样本为圆心，以最短路径为半径，进行画圆，得出一个超球体【画圆的目的是为圈定我们寻找最近距离样本的范围，也就是说，如果存在更近距离的样本，则该样本一定在超球体的内部】
5.从栈中依次弹出之前的样本节点，然后检查超球体是否与该样本节点的分界线相交。如果相交，则说明在该分界线的另外一侧，有可能存在一个距离待测样本更近的样本【待测样本一定位于分界线的一侧，如果球体与分界线相交，则说明分界线的另一侧，一定有部分区域位于超球体的内部，则说明就有可能存在一个样本，距离待测样本的距离更近。】
6.一但超球体以样本的分界线相交，则我们就需要去遍历分界线的另外一侧(遍历分界线样本的另外一颗子树)。【该过程是有个递归的过程，相当于流程回到第1步骤，只是此时的KD-Tree不再是所有样本构成的KD-Tree，而是另外一颗子树构成的KD-Tree。】

星号为待测样本点

在这里插入图片描述

久笙&

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习之KNN算法（KD Tree方法）

一、KNN算法原理KNN（K-nearst neighbors）算法，又叫K近邻算法，它是一种有监督学习的机器学习算法。对新的实例，依据给定的距离公式(二维空间一般采用欧氏距离)，根据其k个最近邻的训练实例的类别，通过多数表决的方式进行预测。意思就是说每个样本都可以用它最接近的k个邻居来代表。原理如图：原理：图中的数据集都已经分好了类，即打好了标签，一类是橙色的三角形，一类是蓝色的圆形，中间的六角形是待分类的数据1.如果K=5，那么离六边形最近的有三个三角形和两个圆形，因为三个三角形占优势，依据多
复制链接

扫一扫