这个算法是不需要对数据进行训练的,所以理解起来十分容易。
步骤
- 计算已知类别数据集中的所有点与待测点之间的距离(需要进行归一化处理)
- 按照距离递增的次序排序
- 选取与待测点距离最小的K个点
- 确定这K个点所在类别的出现频率
- 返回出现频率最高的类别作为待测点的预测分类
应用
数字识别等
优缺点
优点:精度高,对异常值不敏感,无数据输入假定
缺点:计算复杂度高,空间复杂度高
适用数据范围(目标变量):数值型(可以从无限的数值集合中取值,如房价预测),标称型(只在有限的目标集中取值,如真与假,动物分类集合)