KNN分类算法(Python3.6实现)

NaLan_2020

已于 2023-07-01 17:02:42 修改

阅读量521

点赞数 1

分类专栏：机器学习模型（Python实现）文章标签：机器学习 python

于 2020-05-18 17:37:09 首次发布

本文链接：https://blog.csdn.net/zhiziyi123/article/details/106190319

版权

本文介绍了K-Nearest Neighbor(KNN)分类算法的工作原理，包括其利用欧氏距离等方法判断样本类别的思路。文章还讨论了KNN算法的优点，如简单易实现，以及缺点，如对大样本量的内存需求和预测阶段的计算耗时。同时，通过调用sklearn库演示了如何应用KNN模型，并强调了调整n_neighbors参数以优化模型准确性的关键，指出学习曲线显示最佳K值在13至17之间。

摘要由CSDN通过智能技术生成

KNN算法原理¹

K-Nearest Neighbor(KNN)分类算法的思路：
预测一个新的值x的类别时，根据它距离最近的K个点是什么类别来判断x属于哪个类别。距离的计算方法通常为欧氏距离、曼哈顿距离等。

如图所示，绿色方框为新的数值，要对其进行分类，当K=3时，距离绿色方块的三个点中蓝色三角形数量最多，所以绿色方块被分到蓝色三角形的类别中；当K=5时，距离绿色方块最近的5个点中，红色圆形的数量最多，所以绿色方块被分到红色圆形的类别。在这里插入图片描述
优点：算法简单，易于实现，无需估计参数（非参算法）
缺点：数据量大时，对内存要求较高，预测阶段计算耗时

调用模型

用sklearn自带的数据集来调用模型做分类预测

from sklearn import datasets #datasets是sklearn自带的数据集群
from sklearn.model_selection import train_test_split 
from sklearn.neighbors import KNeighborsClassifier

iris = datasets.load_iris() #用datasets自带的iris数据集
iris_x = iris.data      #花的特性：花瓣的长宽高等属性
iris_y = iris.target    #花的类别

print(iris_x[:5])   #花瓣的四个特性
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

print(iris_y)     #花的分类，有0，1，2三种
[0