机器学习D4——KNN分类原理介绍

最新推荐文章于 2023-10-09 21:09:59 发布

Dunkle.T

最新推荐文章于 2023-10-09 21:09:59 发布

阅读量376

点赞数

分类专栏：人工智能文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_44350337/article/details/115112718

版权

31 篇文章 9 订阅

订阅专栏

KNN分类模型

概念：
- 简单地说，K-近邻算法采用测量不同特征值之间的距离方法进行分类（k-Nearest Neighbor，KNN）
K值的作用
欧几里得距离（Euclidean Distance）

在scikit-learn苦中使用k-近邻算法
knn基于鸢尾花分类实现流程
分类问题：from sklearn.neighbors import KNeighborsClassifier
鸢尾花分类的实现
- 在knn中k的取值不同会直接导致分类结果的不同。n_beighbors参数就表示k值。
- 模型的超参数：如果模型参数有不同的取值且不同的取值会对模型的分类或者预测产生直系的影响。
预测年收入是否大于50K美元
- 对于非数值型数据职业进行one-hot编码进行特征值化
- 学习曲线寻找最优的k值
- k-近邻算法之约会网站配对效果判定（datingTestSet.txt）
- 第一列数值比较大，需要进行归一化预处理，如果效果不好，可以使用标准化预处理。
- 问题：约会数据中发现目标数据为非数值行数据，可行吗？
  - 可行！在knn算法原理中，仅仅是计算特征值之间的距离，目标数据并没有参与运算。

k的取值问题：学习曲线和交叉验证选取K值

适用场景：

关注