机器学习D4——KNN分类原理介绍

KNN分类模型

  • 概念:

    • 简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类(k-Nearest Neighbor,KNN)
  • K值的作用
    在这里插入图片描述

  • 欧几里得距离(Euclidean Distance)
    在这里插入图片描述
    在scikit-learn苦中使用k-近邻算法

  • knn基于鸢尾花分类实现流程

  • 分类问题:from sklearn.neighbors import KNeighborsClassifier

  • 鸢尾花分类的实现
    在这里插入图片描述

    • 在knn中k的取值不同会直接导致分类结果的不同。n_beighbors参数就表示k值。
    • 模型的超参数:如果模型参数有不同的取值且不同的取值会对模型的分类或者预测产生直系的影响。
      在这里插入图片描述
  • 预测年收入是否大于50K美元
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    • 对于非数值型数据职业进行one-hot编码进行特征值化
      在这里插入图片描述

    • 学习曲线寻找最优的k值
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    • k-近邻算法之约会网站配对效果判定(datingTestSet.txt)
      在这里插入图片描述

    • 第一列数值比较大,需要进行归一化预处理,如果效果不好,可以使用标准化预处理。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    • 问题:约会数据中发现目标数据为非数值行数据,可行吗?
      • 可行!在knn算法原理中,仅仅是计算特征值之间的距离,目标数据并没有参与运算。

k的取值问题:学习曲线和交叉验证选取K值

  • K值较小,则模型复杂度较高,容易发生过拟合,学习的估计误差会增大,预测结果对近邻的实例点非常敏感。
  • K值较大可以减少学习的估计误差,但是学习的近似误差会增大,与输入实例较远的训练实例也会对预测器作用,使预测发生错误,k值增大模型的复杂度会下降。
  • 在应用中,k值一半区一个比较小的值,通常采用交叉验证法来选取最优的k值。

适用场景:

  • 小数据场景,样本为几千,几万的
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dunkle.T

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值