sklearn-KNN算法

最新推荐文章于 2023-11-29 09:18:19 发布

weixin_62077732

最新推荐文章于 2023-11-29 09:18:19 发布

阅读量194

点赞数

文章标签： sklearn 算法分类

本文链接：https://blog.csdn.net/weixin_62077732/article/details/122484779

版权

knn算法的原理：

通过计算预测数据与每个训练数据的距离，选出k个数据最近的数据作为参考，在选出的数据中，由target类分类，个数最多的类作为该次分类的结果。

knn算法的问题：当k值较小的时候，例如1 。这样在对于数据的评估的时候，可能受到异常值的影响，最后产生错误的结果。当k值较大的时候，假如已经超出某一个类别的数量，同样在排序的时候，其他的类别所占的比例会升高，导致结果错误

knn算法的API：

from sklearn.neighbors import KNeighborsClassifier

kNeighborsClassifier就是一个评估器，继承与estimator类

下面是对 iris 数据集的分类效果

from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

iris = load_iris()
x_train, x_test, y_train, y_test = train_test_split(
    iris.data, iris.target, random_state=0, test_size=0.2)

trans = StandardScaler()
x_train = trans.fit_transform(x_train)
# 注意这里，为了使得数据更加准确，对训练集做的操作应该和测试集相同，所以方差和平均数不改变
x_test = trans.transform(x_test)

estimator = KNeighborsClassifier(n_neighbors=10)
estimator.fit(x_train, y_train)

print(f"测试的结果为：{estimator.score(x_test, y_test) * 100}%")