k近邻法详解

最新推荐文章于 2023-08-22 09:05:17 发布

zhong_ddbb

最新推荐文章于 2023-08-22 09:05:17 发布

阅读量1k

点赞数 2

分类专栏：机器学习基础文章标签：算法机器学习数据挖掘

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/105974446

版权

机器学习基础专栏收录该内容

31 篇文章 21 订阅

订阅专栏

文章目录

KNN算法三要素
KＮＮ算法
KNN的实现
- KD树的构造
- kd树的搜索

k 近邻法(k-nearest neighbor k-NN) 是一种基本分类与回归方法。KNN模型的主要任务是基于距离度量，找出与被测样本距离最近的k个点。KNN的三个基本要素：k值的选择，距离度量以及分类决策规则。

KNN算法三要素

距离的度量

特征空间中的两个实例点的距离是两个实例点相似程度的反映。距离越近(数值越小)，相似度越大。

假设 $x_i,x_j \in \mathcal R^n$ ， $x_i,x_j$ 的 $L_p$ 距离定义为：
$L_p(x_i, x_j)=\left(\sum_{l=1}^{n}{\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^p}\right)^{\frac{1}{p}}$
p 取不同的值对应不同的距离：

（1） $p = 1$ 对应曼哈顿距离

（2） $p = 2$ 对应欧氏距离

（3） $=\infty$ 时，各个坐标距离的最大值: $L_{\infty(x_i,x_j)}=\max \limits_{l}|x_i^{(l)}-x_j^{(l)}|$

k 值的选择

（1）如果选择较小的k值，相当于用较小的领域中的训练实例进行预测，预测结果对近邻的实例点非常敏感。如果近邻实例恰巧是噪声，预测就会出错。此时，训练误差小，泛化误差大。k值减小意味着整体模型变得复杂，容易发生过拟合。

（2）如果选择较大的k值，相当于用较大的领域中的训练实例进行预测，这时与输入实例较远的（不相似的）点会对预测起作用，使得预测发生错误。此时，训练误差大，泛化误差小。k值增大意味着模型变得简单。

（3）如果k值与样本数相同，无论输入实例是什么，他的输出是：训练实例中最多的类。模型过于简单，忽略了训练实例中的有用信息。

总结：实际应用中，k值一般选取一个较小的数值，通常采用交叉验证法来选取最优的k值。

分类决策规则

KNN分类预测时，采用多数表决法，根据其k个最近邻的训练实例的类别的众数作为最终结果。

KNN回归预测时，采用k个最近邻的训练实例的类别的均值作为最终的结果。

KＮＮ算法

以分类为例讲述KNN算法。

输入: $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$ ;

其中， $x_i\in \mathcal{X}\sube{\mathbf{R}^n}, y_i\in\mathcal{Y}=\{c_1,c_2,\dots, c_k\}$ ，实例特征向量 $x$

输出: 实例x所属的 $y$

步骤:

根据指定的距离度量，在 $T$ 中查找 $x$ 的最近邻的 $k$ 个点，覆盖这 $k$ 个点的 $x$ 的邻域定义为 $N_k(x)$
在 $N_k(x)$ 中应用分类决策规则(多数表决)决定 $x$ 的类别 $y$ ：
$y=\arg\max_{c_j}\sum_{x_i\in N_k(x)}I(y_i=c_j), i=1,2,\dots,N, j=1,2,\dots,K$

$I$ 为指示函数，当 $y_i = c_j$ 时， $I = 1$ 。否则 $I = 0$ 。

KNN的实现

简单实现思路。线性扫描法：按照指定的距离计算方法，计算输入实例与每一个训练样本的距离，选出与输入实例距离最近的ｋ个样本。当训练集很大时，计算时间复杂度高，不可行。一般使用kd树来实现KNN模型。

kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是二叉树，表示对k维空间的一一个划分(partition)。构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分，构成一系列的k维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。

KD树的构造

算法 (构造平衡kd树)

输入: k维空间数据集 $T=\{x_1,x_2.\ldots,x_N\}$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)}\ldots,x_i^{(k)})^T,i=1,2\ldots ,N$

输出: kd树。

（1）开始:构造根结点，根结点对应于包含T的k维空间的超矩形区域。

选择 $x^{(1)}$ 为坐标轴，以T中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现。

由根结点生成深度为1的左、右子结点:左子结点对应坐标 $x^{(1)}$ 小于切分点的子区域，右子结点对应于坐标 $x^{(1)}$ 大于切分点的子区域。

将落在切分超平面上的实例点保存在根结点。

（2）重复:对深度为 $j$ 的结点，选择 $x^{(l)}$ 为切分的坐标轴， $l = j (m o d) k + 1$ ，以该结点的区域中所有实例的 $x^{(l)}$ 坐标的中位数为切分点，将该结点对应的超矩行区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(l)}$ 垂直的超平面实现。
由该结点生成深度为 $j + 1$ 的左、右子结点:左子结点对应坐标 $x^{(l)}$ 小于切分点的子区域，右子结点对应坐标 $x^{(l)}$ 大于切分点的子区域。
将落在切分超平面上的实例点保存在该结点。

（3）直到两个子区域没有实例存在时停止。从而形成kd树的区域划分。

举个例子，假设有二维样本6个， $T=\{(2,3)，(5,4)，(9,6)，(4,7)，(8,1)，(7,2)\}，$ 构建kd树的具体步骤为：

(1) 找到划分特征。x维度方差6.97 > y维度方差 5.37。所以选择第一个维度进行划分。

(2) 确定划分点。x维度数字为：2，4，5，7，8，9。可以取中位数为：5或者7，这里取7。

划分结果：划分超平面会经过(7,2)且垂直于坐标轴X。由于划分超平面的确定，所以x<=7的样本 ${(2,3),(5,4),(4,7)\}$ 属于左子空间，x>=7的样本 ${(9,6)，(8,1)\}$ 属于右子空间。

(3) 对未用于父节点划分的特征重复上面的操作。即左矩形以 $x^{(2)}=4$ 分为两个子矩形，右矩形以 $x^{(2)}=6$ 分为两个子矩形。如此递归，得到下图的空间划分结果和kd树：

在这里插入图片描述

kd树的搜索

输入:已构造的kd树，目标点x;输出: x的最近邻。

(1)在kdl树中找出包含目标点x的叶结点:从根结点出发,递归地向下访问kd树。若目标点当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点。直到子结点为叶结点为止。

(2)以此叶结点为“当前最近点”。

(3)递归地向上回退，在每个结点进行以下操作:

(a)如果该结点保存的实例点比当前最近点距离目标点更近，则以该实例点为“当前最近点”。

(b)当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一子结点对应的区域是否有更近的点。具体地，检查另一子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。

如果相交，可能在另一个子结点对应的区域内存在距目标点更近的点，移动到另一个子结点。接着，递归地进行最近邻搜索;

如果不相交，向上回退。

(4)当回退到根结点时，搜索结束。最后的“当前最近点”即为x的最近邻点。

如果实例点是随机分布的，kd 树搜索的平均计算复杂度是O(logN),这里N是训练实例数。kd树更适用于训练实例数远大于空间维数时的k近邻搜索。当空间维数接近训练实例数时，它的效率会迅速下降，几乎接近线性扫描。

举例说明：下图是一个kd树，其根结点为A，子结点为B，C等。给定目标点S，要搜索其最近邻。

在这里插入图片描述

（1）找到包含目标点S的叶节点D。将D作为最近邻。真正的近邻在以点S为圆心SD长度为半径的圆O的内部。

（2）返回D的父节点B，在节点的另一子结点F区域内搜索，节点F与圆O不相交，不存在最近邻。

（3）返回B的父结点A，在A的另一子结点C内搜索最近邻。发现结点C与圆O相交，相交区域存在E点，点E比点D更近。成为新的最近邻。

（4）最后点E是点S的最近邻。

理解最近邻点的搜索方法后，如果我们要查找最近邻的K个点，只需要在第一轮先找到最近邻点，然后在第二轮忽略这个最近邻的点，查找次最近邻的点。重复这个过程，直到找到了K个近邻的点。

zhong_ddbb

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
k近邻法详解

k 近邻法(k-nearest neighbor k-NN) 是一种基本分类与回归方法。KNN模型的主要任务是基于距离度量，找出与被测样本距离最近的k个点。KNN的三个基本要素：k值的选择，距离度量以及分类决策规则。KNN算法三要素距离的度量特征空间中的两个实例点的距离是两个实例点相似程度的反映。距离越近(数值越小)，相似度越大。假设xi,xj∈Rnx_i,x_j \in \mathca...
复制链接

扫一扫