K近邻

最新推荐文章于 2024-06-28 00:24:12 发布

池边的树

最新推荐文章于 2024-06-28 00:24:12 发布

阅读量5.4k

点赞数 2

分类专栏：机器学习文章标签： knn 近邻

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

K近邻

k近邻法（k-Nearest Neighbor，简称kNN）是一种基本的分类与回归方法。

分类问题：对新的样本，根据其k个最近邻的训练样本的类别，通过多数表决等方式进行预测。
回归问题：对新的样本，根据其k个最近邻的训练样本标签值的均值作为预测值。

k近邻法不具有显式的学习过程，它是直接预测。它是惰性学习(lazy learning)的著名代表。
- 它实际上利用训练数据集对特征向量空间进行划分，并且作为其分类的"模型"。
- 这类学习技术在训练阶段仅仅将样本保存起来，训练时间开销为零，等到收到测试样本后再进行处理。
  
  那些在训练阶段就对样本进行学习处理的方法称作急切学习(eager learning)。
k近邻法是个非参数学习算法，它没有任何参数（k是超参数，而不是需要学习的参数）。
- k近邻模型具有非常高的容量，这使得它在训练样本数量较大时能获得较高的精度。
- 它的缺点有：
  - 计算成本很高。因为需要构建一个 $N\times N$ 的距离矩阵，其计算量为 $O(N^2)$ ，其中N为训练样本的数量。
    
    当数据集是几十亿个样本时，计算量是不可接受的。
  - 在训练集较小时，泛化能力很差，非常容易陷入过拟合。
  - 无法判断特征的重要性。
k近邻法的三要素：
- k值选择。
- 距离度量。
- 决策规则。

1. k值选择

当 $k = 1$ 时的k近邻算法称为最近邻算法，此时将训练集中与 $\mathbf x$ 最近的点的类别作为 $\mathbf x$ 的分类。
k值的选择会对k近邻法的结果产生重大影响。
- 若k值较小，则相当于用较小的邻域中的训练样本进行预测，"学习"的偏差减小。
  
  只有与输入样本较近的训练样本才会对预测起作用，预测结果会对近邻的样本点非常敏感。
  
  若近邻的训练样本点刚好是噪声，则预测会出错。即：k值的减小意味着模型整体变复杂，易发生过拟合。
  - 优点：减少"学习"的偏差。
  - 缺点：增大"学习"的方差（即波动较大）。
- 若k值较大，则相当于用较大的邻域中的训练样本进行预测。
  
  这时输入样本较远的训练样本也会对预测起作用，使预测偏离预期的结果。
  
  即： k值增大意味着模型整体变简单。
  - 优点：减少"学习"的方差（即波动较小）。
  - 缺点：增大"学习"的偏差。
应用中，k值一般取一个较小的数值。通常采用交叉验证法来选取最优的k值。

2. 距离度量

特征空间中两个样本点的距离是两个样本点的相似程度的反映。

近邻模型的特征空间一般是n维实数向量空间 $\mathbb R^n$ ，其距离一般为欧氏距离，也可以是一般的 $L_p$ 距离：
$L_p(\mathbf x_i,\mathbf x_j)=(\sum_{l=1}^{N}|\mathbf x_{i,l}-\mathbf x_{j,l}|^p)^{1/p},\ p\geqslant1\\ \mathbf x_i,\mathbf x_j\in \mathcal X=\mathbb R^n;\mathbf x_i=(x_{i,1},x_{i,2},...,x_{i,n})^T\tag{1}$
- 当 $p = 2$ 时，为欧氏距离： $L_2(\mathbf x_i,\mathbf x_j)=(\sum_{l=1}^{N}|\mathbf x_{i,l}-\mathbf x_{j,l}|^2)^{1/2}$
- 当 $p = 1$ 时，为曼哈顿距离： $L(\mathbf x_i,\mathbf x_j)=\sum_{l=1}^{N}|\mathbf x_{i,l}-\mathbf x_{j,l}|$
- 当 $p=\infty$ 时，为各维度距离中的最大值： $L_{\infty}(\mathbf x_i,\mathbf x_j)=max_l\ |\mathbf x_{i,l}-\mathbf x_{j,l}|$
不同的距离度量所确定的最近邻点是不同的。

3. 决策规则

分类决策通常采用多数表决，也可以基于距离的远近进行加权投票：距离越近的样本权重越大。
回归决策通常采用均值回归，也可以基于距离的远近进行加权投票：距离越近的样本权重越大。

转自：

AI算法工程师手册

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
K近邻

K近邻k近邻法（k-Nearest Neighbor，简称kNN）是一种基本的分类与回归方法。分类问题：对新的样本，根据其k个最近邻的训练样本的类别，通过多数表决等方式进行预测。回归问题：对新的样本，根据其k个最近邻的训练样本标签值的均值作为预测值。k近邻法不具有显式的学习过程，它是直接预测。它是惰性学习(lazy learning)的著名代表。它实际上利用训练数据集对特...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。