目录
一、KNN算法简介
KNN算法是一种基于实例的监督学习算法,常用于分类和回归任务。它的核心思想是:如果一个数据点附近的K个数据点中的大多数属于某一类别或者具有相似的数值,那么该数据点也很可能属于该类别或具有类似的数值。
二、工作原理
·KNN算法的工作原理非常简单:
- 计算测试数据点与所有训练数据点之间的距离(通常使用欧几里得距离或其他距离度量方法)。
- 选择距离最近的K个训练数据点。
- 对于分类任务,通过投票来确定测试数据点的类别。对于回归任务,计算K个邻居的平均值或加权平均值作为预测值。
·KNN算法的优缺点:
优点:KNN算法的优点包括简单易懂、适用于多种问题、不需要训练过程。
缺点:对大数据集的计算开销大、对特征值范围敏感等。
三、算法步骤
1.计算测试数据与各个训练数据之间的距离
2.按照升序从小到大对距离进行排序(一般用欧式距离)
3.选取距离最小的前k个点
4.确定前k个点所在类别的频率
5.返回前k个点中出现频率最高的类别作为测试数据的分类
四、实例----使用knn算法对鸢尾花进行分类
1.步骤实现:
第一步:引入所需库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import numpy as np
第二步:划分数据集为训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=0)
第三步: 创建分类器
KNN = KNeighborsClassifier(n_neighbors=5)
第四步:评价模型的准确率
KNN.fit(x_train, y_train)
#训练集准确率
train_score = KNN.score(x_train, y_train)
#测试集准确率
test_score = KNN.score(x_test, y_test)
第五步:使用模型预测未知种类的鸢尾花
#待预测数据
X1 = np.array([[1.5, 3, 5.8, 2.2], [6.2, 2.9, 4.3, 1.3]])
#预测
prediction = KNN.predict(X1)
#种类名称
k = iris.get("target_names")[prediction]
2.结果
KNN算法还常用于数字识别、垃圾邮件检测等分类问题。
五、总结
KNN算法是一种简单而有效的机器学习算法,适用于多种问题。它的核心思想是通过寻找最近的邻居来进行分类或回归。然而,KNN也有一些限制,如对大型数据集的计算开销较大。在实际应用中,选择合适的K值和距离度量方法非常关键。希望本博客能帮助您。