数据挖掘——KNN算法预测测试数据的物种分类

最新推荐文章于 2023-03-22 23:39:38 发布

VIP文章翊小宸

最新推荐文章于 2023-03-22 23:39:38 发布

阅读量1.8k

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45058912/article/details/106803967

版权

KNN算法（KNN, K-Nearest Neighbors）

iris.arff数据集包含了150条关于花的数据，这些数据被等分为3类Iris物种：Setosa、Versicolor和Virginica，每朵花的数据描述有四项特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。

问题：简述K近邻分类算法的思想和优缺点，并通过KNN算法预测测试数据的物种分类，请写出详细的算法过程。

K近邻（K Nearest Neighbors）算法又称为KNN算法，是一种非常直观并且容易理解和实现的有监督分类算法。该算法的基本思想是寻找与待分类的样本在特征空间中距离最近的K个已标记样本（即K个近邻），以这些样本的标记为参考，通过投票等方式，将占比最高的类别标记赋给待标记样本。【该方法被形象地描述为“近朱者赤，近墨者黑”】

KNN分类决策需要待标记样本与所有训练样本作比较，不具有显示的参数学习过程，在训练阶段仅仅是将样本保存起来，训练时间为零，可以看做直接预测。
KNN算法需要确定K值、距离度量和分类决策规则。
随着K取值的不同，会获得不同的分类结果。
一般地，K值过小时，只有少量的训练样本对预测起作用，容易发生过拟合，或者受含噪声训练数据的干扰导致预测错误；反之，K值过大时，过多的训练样本对预测起作用，当不同类别样本数量不均衡时，结果将偏向数量占优的样本，也容易产生预测错误。
实际应用中࿰

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘——KNN算法预测测试数据的物种分类

iris.arff数据集包含了150条关于花的数据，这些数据被等分为3类Iris物种：Setosa、Versicolor和Virginica，每朵花的数据描述有四项特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。问题：简述K近邻分类算法的思想和优缺点，并通过KNN算法预测测试数据的物种分类，请写出详细的算法过程。import numpy as npimport operator as optimport matplotlib.pyplot as pltimport coll...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。