分类中:采用“投票法”,k个样本中出现最多的累呗标记作为预测结果;
回归中:采用“平均值”,即将K个样本的 ’实值输出标记的平均值作为预测结果。
k近邻算法是一种“懒惰学习”
关键是k值得选取,是一个非常重要的参数。选取的小容易造成过拟合,选取的大容易造成欠拟合。
k近邻需要计算样本之间的距离,计算距离的方法有好多种,比如欧式距离,曼哈顿距离,闵可夫斯基距离;但是当数据很大,维数很多的时候,计算距离将变成一件非常难的事(维数灾难),所以这就是希望我们降维。
这里我们给出KD树。。
kd树是二叉树,表示对k维空间的一个划分,其每个节点对应于k维空间划分中的一个超矩形区域,利用kd树可以省去对大部分数据点的搜索,从而减少搜索的计算量。