K-邻近算法
流程
收集数据:任何方法
准备数据:距离计算所需要的数值,最好是结构化的数据格式
分析数据:任何方法
训练算法
测试算法:计算错误率
使用算法:输入样本数据和结构化的输出结果,然后运行K近邻算法判断输入数据分类属于哪个分类,最后对计算出的分类执行后续处理。
特点:
优点:精度高,对异常值不敏感,无数据输入假定
缺点:计算复杂度高,空间复杂度高
使用数据范围:数值型和标称型
基本原理
通过距离度量来计算查询点(query point)与每个训练数据点的距离,然后选出与查询点(query point)相近的K个最邻点(K nearest neighbors),使用分类决策来选出对应的标签来作为该查询点的标签
示例1
优化约会网站的配对效果
示例2
手写数字识别系统