统计学习方法——第三章:KNN

本文介绍了K近邻(K-NN)模型,探讨了距离度量如欧式距离对模型的影响,讨论了K值选择对近似误差和估计误差的平衡,以及多数表决规则的分类策略。此外,还详细阐述了KD树在KNN算法中的应用,包括如何建立KD树以及进行K近邻搜索的过程。
摘要由CSDN通过智能技术生成

K近邻模型

k-nearest neighbor K-NN
解决多分类问题,对每个训练实例点xi,距离该点较近的k个点构成一个区域,叫做cell
在这里插入图片描述
可以看到距离度量,K值选取,分类规则都会对模型产生较大的影响

距离度量

两个实例点的距离代表了相似程度,一般为欧式距离,但也可以是其他距离
在这里插入图片描述
要注意,不同距离所得到的最近的k个点是不同的。举个例子
在这里插入图片描述

K值

近似误差:可以理解为对现有训练集的训练误差。
如果近似误差小了会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。

估计误差:可以理解为对测试集的测试误差。
估计误差小了说明对未知数据的预测能力好。模型本身最接近最佳模型。

对于KNN来说
如果K取得过小,近似误差小,但估计误差大,模型复杂
一方面过拟合现象
另一方面噪音点会对模型产生很大影响

如果K取得过大&

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值