1、基本思想:
将样本包含的n个观测数据看成p维(p个输入变量)特征空间中的点,为预测一个新观测X0输出变量y0的取值,首先在已有数据中找到与X0相似的K个观测,如(X1, X2, …, Xk),这些观测称为X0的近邻。对于分类问题,预测值应为最大概率值对应的分类;对于回归预测问题,是近邻输出变量的平均值。
核心问题:依据怎么的标准选择近邻?选择几个近邻(k如何确定)?
2、近邻标准–距离
对于p维空间的任意两点x 和 y
2.1 闵可夫斯基距离
2.2 欧氏距离:闵可夫斯基距离k=2时的特例。
2.3 绝对距离:闵可夫斯基距离k=1时的特例。
2.4 切比雪夫距离:CHEBYCHEV(x,y)=max(| xi-yi|),i=1,2,…,p。
2.5 夹角余弦距离:
夹角余弦越大,两观测变量整体结构相似度越高。
注:为使各输入变量对距离有“同等的贡献”,计算距离前应对数据进行预处理以消除数量级差异。如极差法: