统计学习方法-3(k近邻)

最新推荐文章于 2024-05-31 13:51:06 发布

ww要努力呀

最新推荐文章于 2024-05-31 13:51:06 发布

阅读量89

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/wwang_123/article/details/127221842

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

k近邻算法
k近邻模型
k近邻法的实现：kd树

k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法，书中只讨论分类问题中的k近邻法。

输入为实例的特征向量
输出为实例的类别
分类时，对于新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测
三要素：k值选择、距离度量及分类决策规则

k近邻算法

输入：训练数据集 $T=\left\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\right\}$
输出：实例x所属的类y
1、根据给定的距离向量，在训练集T中找出与x最邻近的k个点，涵盖这k个点的x的邻域记作 $N_{k}(x)$
2、在 $N_{k}(x)$ 中根据分类决策规则（如多数表决）决定x的类别y

k近邻法的特殊情况是k=1的情形，称为最近邻算法

k近邻模型

模型

特征空间中，每个训练实例点，距离该点比其他点更近的所有点组成一个区域，叫做单元(cell)，

每个训练实例点拥有一个单元，所有训练实例点组成的单元构成对特征空间的一个划分
将实例xi的类yi作为其单元中所有点的类标记

在这里插入图片描述

距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。
k近邻模型的特征空间一般是n维实数向量空间 $R^{n}$ ，使用的距离是欧氏距离，但也可以是其他距离 $L_{p}$ 距离或Minkowski距离

设特征空间X是n维实数向量空间， $x_{i},x_{i}\epsilon X, x_{i}=(x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(n)})^{T}, x_{j}=(x_{j}^{(1)},x_{j}^{(2)},...,x_{j}^{(n)})^{T},x_{i},x_{j}的L_{p}距离定义为：$

$L_{p}(x_{i},x_{j})=(\sum_{l=1}^{n}|x_{i}^{l}-x_{i}^{l}|^{p})^{\frac{1}{p}}$

这里p>=1。当p=2时，称为欧氏距离，即
$L_{2}(x_{i},x_{j})=(\sum_{l=1}^{n}|x_{i}^{l}-x_{i}^{l}|^{2})^{\frac{1}{2}}$

p=1时，称为曼哈顿距离，即
- $L_{1}(x_{i},x_{j})=(\sum_{l=1}^{n}|x_{i}^{l}-x_{i}^{l}|^{1})$

$p=\infty$ 时，它是各个坐标距离的最大值，即
$L_{\infty }(x_{i},x_{j})=\displaystyle \max_{l}|x_{i}^{l}-x_{j}^{l}|$

k值的选择

较小k值，近似误差减小，估计误差增大，对近邻实例敏感，模型更复杂，容易过拟合
较大k值，近似误差增加，估计误差减小，模型变得简单
k=N，模型过于简单，完全忽略训练实例中有用信息，不可取
应用中，一般选比较小的数值，通常采用交叉验证法来选取最优的k值

ps:

近似误差：训练数据上的误差
估计误差：测试数据上的误差

分类决策规则

多数表决规则
如果分类的损失函数为0-1损失函数，分类函数为

$f:R^{n}\to \left\{c_{1},c_{2},...,c_{k} \right\}$
那么误分类的概率为：
$P(Y\neq f(X))=1-P(Y=f(X))$

对于实例x最近邻的k个训练实例点构成集合 $N_{k}(x)$ ，如果涵盖 $N_{k}(x)$ 的区域的类别是 $c_{j}$ ，那么误分类率

$\frac{1}{k}\sum_{x_{i}\epsilon N_{k}(x)}I(y_{i}\neq c_{j})=1-\frac{1}{k}\sum_{x_{i}\epsilon N_{k}(x)}I(y=c_{j})$

要使误分类率最小即经验风险最小，就要使 $\frac{1}{k}\sum_{x_{i}\epsilon N_{k}(x)}I(y=c_{j})$ 最大，所以多数表决规则等价于经验风险最小化