【第六章】KNN

1、熟悉复述 KNN 算法对数据进行分类的思想,能对照下图说出新来实例点 Xu 的分类过程。

 k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。 k近邻法的输入为实例的特征向量对应于特征空间的点;输出为实例的类别,可以取多类。 k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻法不具有显式的学习过程。

2、能详细的复述 KNN 算法的过程:12345。

对未知类别属性的数据集中的每个点依次执行以下操作:

  1. 计算已知类别数据集中的点与当前点之间的距离;
  2. 按照距离递增次序排序;
  3. 选取与当前点距离最小的k个点;
  4. 确定前k个点所在类别的出现频率;
  5. 返回前k个点出现频率最高的类别作为当前点的预测分类

3、熟练记忆 KNN 算法的三要素及其具体涵义。

三要素:距离度量方式、k值选择、分类决策规则

即:距离待预测点的邻居的个数K样本点之间距离的计算方式决策函数的选择

4、列出闵式距离的公式,并阐述曼哈顿距离、欧式距离和切比雪夫距离公式中对应 P 的取值。

 5、能够结合二维空间的坐标图,找出曼哈顿距离、欧式距离和切比 雪夫距离对应的部分。

 6、阐述 k 值选取对模型产生影响、对于学习误差和近似误差产生的影响等。

如果选择较小的K值:

“学习”的近似误差会减小,但“学习”的估计误差会增大,噪声敏感 K值的减小就意味着整体模型变得复杂,容易发生过拟合.

如果选择较大的K值:

减少学习的估计误差,但缺点是学习的近似误差会增大. K值的增大就意味着整体的模型变得简单.

7、熟练阐述如何根据交叉验证筛选出合适的 k 值。

在交叉验证中,我们将数据集分为 k 个部分,每次取其中一个部分作为验证集,其余部分作为训练集。对于每个 k 值,重复上述流程并计算模型的平均误差。选择误差最小的 k 值作为模型参数。因此,可以根据最小错误来筛选出合适的 k 值。

8、了解分类决策规则。

k 近邻法中的分类决策规则往往是多数表决,即由待分类样本的 k 个邻近分类样本中的多数类决定它的类。

决策函数的选择:用于分类的多票表决法、用于回归的平均值法

9、了解 KNN 和 K-Means 的对比差别

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hellenionia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值