统计学习方法——第三章：KNN

最新推荐文章于 2021-06-26 22:09:05 发布

取个程序猿的名字

最新推荐文章于 2021-06-26 22:09:05 发布

阅读量256

点赞数

分类专栏： kaggle 文章标签：统计学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45680007/article/details/102990502

版权

本文介绍了K近邻（K-NN）模型，探讨了距离度量如欧式距离对模型的影响，讨论了K值选择对近似误差和估计误差的平衡，以及多数表决规则的分类策略。此外，还详细阐述了KD树在KNN算法中的应用，包括如何建立KD树以及进行K近邻搜索的过程。

摘要由CSDN通过智能技术生成

K近邻模型

k-nearest neighbor K-NN
解决多分类问题，对每个训练实例点xi，距离该点较近的k个点构成一个区域，叫做cell
在这里插入图片描述
可以看到距离度量，K值选取，分类规则都会对模型产生较大的影响

距离度量

两个实例点的距离代表了相似程度，一般为欧式距离，但也可以是其他距离
在这里插入图片描述
要注意，不同距离所得到的最近的k个点是不同的。举个例子

K值

近似误差：可以理解为对现有训练集的训练误差。
如果近似误差小了会出现过拟合的现象，对现有的训练集能有很好的预测，但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。

估计误差：可以理解为对测试集的测试误差。
估计误差小了说明对未知数据的预测能力好。模型本身最接近最佳模型。

对于KNN来说
如果K取得过小，近似误差小，但估计误差大，模型复杂
一方面过拟合现象
另一方面噪音点会对模型产生很大影响

如果K取得过大&

最低0.47元/天解锁文章

取个程序猿的名字

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法——第三章：KNN

K近邻模型k-nearest neighbor K-NN解决多分类问题，对每个训练实例点xi，距离该点较近的k个点构成一个区域，叫做cell可以看到距离度量，K值选取，分类规则都会对模型产生较大的影响距离度量两个实例点的距离代表了相似程度，一般为欧式距离，但也可以是其他距离要注意，不同距离所得到的最近的k个点是不同的。举个例子K值近似误差：可以理解为对现有训练集的训练误差。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。