K近邻模型
k-nearest neighbor K-NN
解决多分类问题,对每个训练实例点xi,距离该点较近的k个点构成一个区域,叫做cell
可以看到距离度量,K值选取,分类规则都会对模型产生较大的影响
距离度量
两个实例点的距离代表了相似程度,一般为欧式距离,但也可以是其他距离
要注意,不同距离所得到的最近的k个点是不同的。举个例子
K值
近似误差:可以理解为对现有训练集的训练误差。
如果近似误差小了会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。
估计误差:可以理解为对测试集的测试误差。
估计误差小了说明对未知数据的预测能力好。模型本身最接近最佳模型。
对于KNN来说
如果K取得过小,近似误差小,但估计误差大,模型复杂
一方面过拟合现象
另一方面噪音点会对模型产生很大影响
如果K取得过大&