K近邻算法和鸢尾花问题

最新推荐文章于 2024-02-03 23:17:56 发布

菠萝大师

最新推荐文章于 2024-02-03 23:17:56 发布

阅读量2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/xhb29/article/details/105699379

版权

本文介绍了K近邻算法的基本原理，包括K值选择、分类决策规则和距离度量方法。KNN算法在鸢尾花数据集上的应用进行了详细阐述，鸢尾花数据集是一个包含150个样本的四特征分类问题，用于区分山鸢尾、变色鸢尾和维吉尼亚鸢尾。通过对特征的分析和可视化，展示了如何利用KNN进行花卉分类。

摘要由CSDN通过智能技术生成

K近邻算法和鸢尾花问题

一、K近邻算法

K最近邻(k-Nearest Neighbor，KNN) 分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：在特征空间中，如果一个样本附近的k个最近(即特征空间中最邻近)样本的。

K 近邻算法使用的模型实际上对应于对特征空间的划分。K 值的选择，距离度量和分类决策规则是该算法的三个基本要素：
1.K 值的选择会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用，但容易发生过拟合；如果 K 值较大，优点是可以减少学习的估计误差，但缺点是学习的近似误差增大，这时与输入实例较远的训练实例也会对预测起作用，使预测发生错误。在实际应用中，K 值一般选择一个较小的数值，通常采用交叉验证的方法来选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时，误差率不会超过贝叶斯误差率的2倍，如果K也趋向于无穷，则误差率趋向于贝叶斯误差率。
2.该算法中的分类决策规则往往是多数表决，即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别
3.距离度量一般采用 Lp 距离，当p=2时，即为欧氏距离，在度量之前，应该将每个属性的值规范化，这样有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大。