本文介绍KNN的原理
1. KNN算法能做什么?
KNN算法是一种用于分类和回归的算法。
2.KNN算法原理
KNN算法是对于待分类的新数据,找到与其接近的K条数据,根据它们所属的类别,来确定新数据的分类方式。
3.KNN分类的依据
数据集及分类规则,对于接近数据的衡量方式,所选择的K的大小。
4. KNN算法工作举例
下图来自于Wikipedia的k-nearest neighbors algorithm词条
若k=3,距离绿色的点最近的为2个红色三角形和1个蓝色正方形,待分类的点应归类到红色三角形。
若k=5,距离绿色的点最近的为2个红色三角形和3个蓝色正方形,待分类的点应归类到蓝色正方形。
5.对于最近的判断
在算法中,提到了参与投票的点,是最近的k个点。
最近的依据可以是欧氏距离,余弦距离或者其他度量方式。
6.归类的标准
K个最近的点投票,简单多数获胜。
投票时也可以采取根据距离的加权方案。
7.KNN算法特点
无需训练,构造简单,开销大
8.常见问题
K值选择:
当K值选择过小时,可能受到噪声点的干扰
当K值选择过大时,可能包含过多其他类的数据点