概述
K近邻算法是一种懒惰算法,即没有对数据集进行训练的过程,其模型的三个要素:距离度量、k值的选择和分类决策规则决定。
K近邻的思想很简单,即在一个数据集上,给定一个新样本,找到与新样本距离最近的k个实例,在这些实例中属于多数的类即为这个新样本的类。
李航老师《统计学习方法》中,定义的K近邻算法如下:
距离度量:
算法虽然简单,但在其中也要解决一些问题滴。比如,距离度量该怎么选择、k值该怎么选择、分类决策规定该怎么选择。
对于距离度量,一般使用欧式距离,也可以使用其它距离的度量方式,常见的距离度量如下: