KNN

本文介绍了KNN算法的基本思想,包括选择近邻的标准和距离度量方法,如欧氏距离、绝对距离和切比雪夫距离等。讨论了近邻个数k的选择对预测误差的影响,并通过R语言的knn函数进行模拟分析。利用1992年美国总统选举数据,展示了knn算法在不同k值下的错判率,指出k=35和55时的较低错判率。
摘要由CSDN通过智能技术生成

1、基本思想:
将样本包含的n个观测数据看成p维(p个输入变量)特征空间中的点,为预测一个新观测X0输出变量y0的取值,首先在已有数据中找到与X0相似的K个观测,如(X1, X2, …, Xk),这些观测称为X0的近邻。对于分类问题,预测值应为最大概率值对应的分类;对于回归预测问题,是近邻输出变量的平均值。
核心问题:依据怎么的标准选择近邻?选择几个近邻(k如何确定)?
2、近邻标准–距离
对于p维空间的任意两点x 和 y
2.1 闵可夫斯基距离
P:变量数;k:任意指定
2.2 欧氏距离:闵可夫斯基距离k=2时的特例。
2.3 绝对距离:闵可夫斯基距离k=1时的特例。
2.4 切比雪夫距离:CHEBYCHEV(x,y)=max(| xi-yi|),i=1,2,…,p。
2.5 夹角余弦距离:这里写图片描述
夹角余弦越大,两观测变量整体结构相似度越高。

注:为使各输入变量对距离有“同等的贡献”,计算距离前应对数据进行预处理以消除数量级差异。如极差法:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值