一、KNN算法思想:
根据样本的邻居来判断该样本的类别,即选择K个邻居中大多数的类别作为该样本的类别。
二、KNN算法三要素:
1.K值的选取
2.距离的度量方式
3.分类决策规则
K值的选取:
K值太小,泛化误差较大,容易发生过拟合,K值太大,训练误差较大,容易发生欠拟合,在实际使用中,一般采用交叉验证的方法选取K值。
距离的度量方式:
欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离。
分类决策规则:
分类问题:多数表决法
回归问题:均值法
三、KNN算法优点:
1.理论成熟,思想简单,既可以用来做分类也可以用来做回归。
2.可用于线性分类。
3.对数据没有假设,准确度高,对噪声不敏感。
四、KNN算法缺点:
1.计算量大(因为要计算样本与每个点之间的距离)
2.样本不平衡问题(即有些类别的样本数量很多,而其他类别的很少)
3.需要大量的内存