k近邻算法知识要点

最新推荐文章于 2022-12-02 17:26:31 发布

tigerlib

最新推荐文章于 2022-12-02 17:26:31 发布

阅读量859

点赞数

分类专栏： machine learning 文章标签： k近邻算法 KNN kd数距离度量

本文链接：https://blog.csdn.net/weixin_44695969/article/details/99963738

版权

machine learning 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1 $k$ 近邻算法

$k$ 近邻法(k-nearest neighbor, k-NN) 是一种基本的分类与回归方法，这里只讨论分类问题中的k-NN。
$k$ 近邻法的三个基本要素： $k$ 值的选择、距离度量、分类决策规则。
$k$ 近邻法没有显式的学习过程，实际上利用训练集对特征空间进行划分，并作为其分类的"模型"。
$k$ 近邻算法

输入：训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...(x_{N},y_{N})\}$ ，其中 $x_i\in\chi=R^n$ 为实例的特征向量， $y_i\in\mathcal{Y}=\{c_1,c_2,...,c_K\}$ 为实例的类别， $i = 1, 2, . ., N$ ； $x$ 为实例特征向量。

输出：实例 $x$ 所属的类 $y$ 。

（1）根据给定的距离度量，在训练集 $T$ 中找出与 $x$ 最邻近的 $k$ 个点，涵盖这 $k$ 个点的 $x$ 的邻域记作 $N_k(x)$ ；
（2）在 $N_k(x)$ 中根据分类决策规则（如多数表决） $x$ 所属的类 $y$ ：

$y=\arg max_{c_j}\sum_{x_i\in N_k(x)}I(y_i=c_j) \to 此处y取值为函数最大时的c_j的值$

其中， $i = 1, 2, . . ., N ； j = 1, 2, . . ., K$ ； $I$ 为指示函数，即当 $y_i=c_j$ 时 $I$ 为 $1$ ，否则 $I$ 为 $0$
$k$ 近邻法的特殊情况是 $k = 1$ 的情形，称为最近邻算法。对于输入的实例点（特征向量） $x$ ，最近邻法将训练数据集中与 $x$ 最邻近点的类作为 $x$ 的类。
特征空间中，对每个训练实例点 $x_i$ ，距离该点比其他点更近的所有点组成一个区域，叫作单元(cell) 。
- 每个训练实例点拥有一个单元
- 每个单元的实例点的类别是确定的
- 最近邻法，将实例 $x_i$ 的类 $y_i$ 作为其单元中所有点的类标记（class label）
- 二维特征空间划分的一个例子

在这里插入图片描述

2 $k$ 近邻模型

$k$ 近邻模型三个基本要素：距离度量、 $k$ 值的选择、分类决策规则
距离度量
- Minkowski 距离：设特征空间 $\chi$ 是 $n$ 维实数向量空间 $R^n$ ， $x_i,x_j\in\chi$ ， $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T$ ， $x_j=(x_j^{(1)},x_j^{(2)},...,x_j^{(n)})^T$ ， $x_i,x_j$ 的 $L_p$ 距离定义为：
$L_p(x_i,x_j)=(\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p)^{\frac{1}{p}}= \begin{cases} L_1(x_i,x_j)=\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|, & \text{当$p=1$时，为曼哈顿距离} \\ L_2(x_i,x_j)=(\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^2)^{\frac{1}{2}}, & \text{当$p=2$时，为欧式距离} \\ L_\infty(x_i,x_j)=\max_l|x_i^{(l)}-x_j^{(l)}|, & \text{当$p=\infty$时，为切比雪夫距离} \end{cases}$
二维空间中 $p$ 取不同值时，与原点的 $L_p$ 距离为1（即 $L_p=1$ ）的点的图形

在这里插入图片描述

$k$ 值的选择：在应用中， k 值一般取一个比较小的数值.通常采用交叉验证法来选取最优的k 值
分类决策规则：多数表决规则，即由输入实例的k 个邻近的训练实例中的多数类决定输入实例的类。

3 k 近邻法的实现：kd 树

k 近邻法的实现需要考虑如何快速搜索k 个最近邻点。
- kd 树是一种便于对k 维空间中的数据进行快速检索的数据结构；
- kd 树是二叉树，表示对k 维空间的一个划分，其每个结点对应于k 维空间划分中的一个超矩形区域；
- 利用kd 树可以省去对大部分数据点的搜索，从而减少搜索的计算量。

tigerlib

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
k近邻算法知识要点

1 kkk 近邻算法kkk近邻法(k-nearest neighbor, k-NN) 是一种基本的分类与回归方法，这里只讨论分类问题中的k-NN。kkk近邻法的三个基本要素：kkk值的选择、距离度量、分类决策规则。kkk近邻法没有显式的学习过程，实际上利用训练集对特征空间进行划分，并作为其分类的"模型"。kkk近邻算法输入：训练数据集 T={(x1,y1),(x2,y2)...
复制链接

扫一扫