k 近邻算法
k 近邻法(k nearest)是一种基本的分类与回归方法。 k近邻法不具有显示的学习过程。 k 近邻法实际上利用训练数据对特征向量空间进行划分,并作为其分类的模型。
k近邻法的基本三要素:
1. k 值的选择
2. 距离的度量
3. 分类决策规则
k 值的选择
k值的选择会对k近邻法的结果产生重大影响。 选择较小k值,相当于用较小领域来预测,容易产生过拟合情况。
但当k的值过大的时候, 就相当于用较大的领域训练实例进行预测。
在应用中,k的值一般取一个较小的值。 通常采用交叉验证来选取最优的kzhi
距离的度量
t特征空间中的两个实例点的距离是两个实例点之间相似程度的反应。 k近邻模型的特征空间一般是n维的实数向量空间。