K-近邻分类器

最新推荐文章于 2024-03-08 22:54:38 发布

人生不言弃1

最新推荐文章于 2024-03-08 22:54:38 发布

阅读量851

点赞数 1

分类专栏：数据挖掘文章标签：分类机器学习 sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50735831/article/details/124832130

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

目录

1.KNN的工作原理

3.K值的选取

6.KNN的优势和缺点

7.KNN的适用场景

1.KNN的工作原理

所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

简单理解：当预测一个新的值x的时候，根据它距离最近的k个点是什么类别来判断x属于那个类别。

2.简单示例

当k=4时，knn算法找到离他最近的四个点，红三角多，因此判断新来的为红三角，因此k值的选取至关重要。

3.K值的选取

通过交叉验证（将样本数据按照一定比例，拆分出训练用的数据和验证用的数据，）从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一个比较合适的K值。

选择较小的k值，就相当于用较小的领域中的训练实例进行预测，训练误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是泛化误差会增大。换句话说，k值的减小就意味着整体模型变得复杂，容易发生过拟合。
选择较大的k值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少泛化误差，但缺点是训练误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误。换句话说，k值的增大就意味着整体的模型变得简单，容易发生欠拟合。

4.距离度量

1）二维空间两个点的欧式距离计算公式：

2）二维空间两个点的欧式距离计算公式：

5.KNN的特点

knn是一种非参的，惰性的算法模型。

非参：模型不会对数据做出任何的假设，KNN建立的模型结构是根据数据来决定的，比较符合现实情况。

惰性：训练数据很快

6.KNN的优势和缺点

优势

1.简单易用

2.模型训练时间快（惰性）

3.预测效果好

4.对异常值不敏感

缺点

1.对内存要求高，存储了所有的训练数据

2.预测阶段慢

7.KNN的适用场景

当需要使用分类算法，且数据比较大的时候就可以尝试使用KNN算法进行分类了。

8.KNN分类器模型python实现

人生不言弃1

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
K-近邻分类器

目录1.KNN的工作原理2.简单示例3.K值的选取4.距离度量5.KNN的特点6.KNN的优势和缺点7.KNN的适用场景1.KNN的工作原理所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样...
复制链接

扫一扫

专栏目录

人生不言弃1 CSDN认证博客专家 CSDN认证企业博客

码龄4年

26: 原创

85万+: 周排名

10万+: 总排名

1万+: 访问

: 等级

313: 积分

47: 粉丝

51: 获赞

1: 评论

75: 收藏

私信

关注

热门文章

分类专栏

2024学习整理 5篇
算法 4篇
web 2篇
java 5篇
前端 7篇
html学习
Hadoop 1篇
数据挖掘 2篇

最新评论

JVM学习整理
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。