统计学习笔记（1）k近邻

weixin_46096346

已于 2022-03-12 23:23:51 修改

阅读量984

点赞数

分类专栏：统计学习笔记文章标签：机器学习分类深度学习

于 2022-03-12 23:16:27 首次发布

本文链接：https://blog.csdn.net/weixin_46096346/article/details/123451433

版权

统计学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

统计学习笔记（1）K近邻

原理

k近邻法 k-nearest neighbor, k-NN 是一种基本分类与回归方法。
输入：训练数据集
$=\left \{ (x_{1},y_{1}),(x_{1},y_{1}),\cdots ,(x_{1},y_{1}) \right \}$
实例的特征向量
$x_{i}\in \chi \subseteq \Re ^{n}$
实例的类别
$y_{i}\in Y = c_{1},c_{2},\cdots c_{k},i=1,2,\cdots N$
输出：实例 x 所属的类 y
$\max_{cj} \sum_{x_{i}\in N_{k}(x)}^{}I(u_{i} = c_{j})$ $i=1,2,\cdots ,N; j=1,2,\cdots ,K$
根据距离度量，涵盖实例 x 最近邻的 k 个点的邻域记做 $N_{k}(x)$

简述步骤

给定一个训练数据集，有各自的分类标签。在训练过程中，分类器获取训练数据并简单地记住它
对于新的输入实例 X，kNN将其与所有训练数据进行比较，通过距离度量，在训练数据集中选取离它最近的 k 个实例
找到这k个实例所属种类最多的类别，则将该输入实例分到这个类中

三要素

距离度量

设特征空间 $\chi$ 是 $n$ 维实数向量空间 $\Re ^{n}$ , $x_{i},x _{j}\in\chi$
$x_{i} = (x_{i}^{(1)},x_{i}^{(2)},\cdots x_{i}^{(n)} )^{T}$
$x_{j} = (x_{j}^{(1)},x_{j}^{(2)},\cdots x_{j}^{(n)} )^{T}$

$x_{i},x_{j}$ 的距离定义为
$L_{p}(x_{i},x_{j}) = (\sum_{l=1}^{n} \left | x_{i}^{(l)} - x_{j}^{(l)} \right | )^{\frac{1}{p} }$
即 $L_{p}$ 距离
当p=1是为曼哈顿距离；p=2时为欧氏距离

k 值的选择

K选择较小的值
- 近似误差（训练集的误差）减小，估计误差（预测时的误差）增大
- 噪声敏感
- 模型变复杂，容易过拟合
K选择较大的值
- 减少估计误差，近似误差增大
- 整体模型变简单

特殊情况 k=1时，称为最近邻算法

k近邻法没有显式的学习过程

分类决策规则

分类函数
$f:\Re ^{n}\to c_{1},c_{2},\cdots c_{K}$
误分类率
$P(Y\ne f(X)=1-P(Y=f(X))$
$\frac{1}{k} \sum_{x_{i}\in N_{k}(x)} I(y_{i}\ne c_{j}) = 1 - \frac{1}{k} \sum_{x_{i}\in N_{k}(x)} I(y_{i}= c_{j})$
$f (X)$ 为分类函数

kd树

kd树是一种对 K 维空间中的实例点进行存储以便对其进行快速检索的树形数据结构
kd树是二叉树，表示对 K 维空间的一个划分，构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分，构成一系列的k维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。

公式 $\bmod k)+1$
其中 $j$ 为树的深度， $k$ 是数据总维度，得到的 $l$ 是下一次切分所选择的维度。

注：kNN的k值选择和kd树两者的k之间没什么关系，kNN中的k是指在选取k个邻近的点进行表决，而kd-tree中的k是指一个样本数据的维度

查询

寻找当前最近点
- 从根节点出发，递归访问 kd 树，找出包含 x 的叶节点
- 以此节点为 “当前最近点”
回溯
- 若该节点比 “当前最近点” 距离目标点更近，更新 “当前最近点”
- 当前最近点一定存在于该节点一个子结点对应的区域，检查子节点的父节点的另一子节点对应的区域是否有更近的点
当回退回根节点时，搜索结束，最后的“当前最近点”即为最近邻点

kd 树搜索的平均计算复杂度是 $O(\log{N} )$

实践作业可参考：
link1
link2
link3
link4

weixin_46096346

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习笔记（1）k近邻

统计学习笔记（1）K近邻原理简述步骤三要素距离度量k 值的选择分类决策规则kd树查询原理k近邻法 k-nearest neighbor, k-NN 是一种基本分类与回归方法。输入：训练数据集T={(x1,y1),(x1,y1),⋯ ,(x1,y1)}T =\left \{ (x_{1},y_{1}),(x_{1},y_{1}),\cdots ,(x_{1},y_{1}) \right \} T={(x1,y1),(x1,y1),⋯,(x1,y1)}实例的特征向量xi∈χ⊆ℜnx_{i
复制链接

扫一扫