1、熟悉复述 KNN 算法对数据进行分类的思想,能对照下图说出新来实例点 Xu 的分类过程。
k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。 k近邻法的输入为实例的特征向量对应于特征空间的点;输出为实例的类别,可以取多类。 k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻法不具有显式的学习过程。
2、能详细的复述 KNN 算法的过程:12345。
对未知类别属性的数据集中的每个点依次执行以下操作:
- 计算已知类别数据集中的点与当前点之间的距离;
- 按照距离递增次序排序;
- 选取与当前点距离最小的k个点;
- 确定前k个点所在类别的出现频率;
- 返回前k个点出现频率最高的类别作为当前点的预测分类
3、熟练记忆 KNN 算法的三要素及其具体涵义。
三要素:距离度量方式、k值选择、分类决策规则
即:距离待预测点的邻居的个数K;样本点之间距离的计算方式;决策函数的选择
4、列出闵式距离的公式,并阐述曼哈顿距离、欧式距离和切比雪夫距离公式中对应 P 的取值。
5、能够结合二维空间的坐标图,找出曼哈顿距离、欧式距离和切比 雪夫距离对应的部分。
6、阐述 k 值选取对模型产生影响、对于学习误差和近似误差产生的影响等。
如果选择较小的K值:
“学习”的近似误差会减小,但“学习”的估计误差会增大,噪声敏感 K值的减小就意味着整体模型变得复杂,容易发生过拟合.
如果选择较大的K值:
减少学习的估计误差,但缺点是学习的近似误差会增大. K值的增大就意味着整体的模型变得简单.
7、熟练阐述如何根据交叉验证筛选出合适的 k 值。
在交叉验证中,我们将数据集分为 k 个部分,每次取其中一个部分作为验证集,其余部分作为训练集。对于每个 k 值,重复上述流程并计算模型的平均误差。选择误差最小的 k 值作为模型参数。因此,可以根据最小错误来筛选出合适的 k 值。
8、了解分类决策规则。
k 近邻法中的分类决策规则往往是多数表决,即由待分类样本的 k 个邻近分类样本中的多数类决定它的类。
决策函数的选择:用于分类的多票表决法、用于回归的平均值法
9、了解 KNN 和 K-Means 的对比差别