机器学习常用模型

本文介绍了机器学习中选择算法的基本原则,包括考虑目标(分类或预测)和数据类型。接着,详细讨论了sklearn库中的KNN(最近邻)算法,说明了其在字符识别、文本分类和图像识别等领域的应用。内容涵盖了KNN算法的核心思想,即通过找到样本的k个最近邻来进行分类,并解释了k值选择对模型复杂度和预测准确性的影响。最后提到了通常采用交叉验证法来确定最佳k值。
摘要由CSDN通过智能技术生成

01 | 前言

1.选择算法

在选择算法之前,要考虑两个问题。一是使用模型的目的是什么(分类or预测);二是需要使用的数据是什么样的。
需要预测变量的值,可以使用监督学习算法,反之使用非监督;如果是分类的问题,可以使用分类模型;如果是求解连续型数值,则应该使用回归模型。

02 | sklearn基础算法

1.KNN

1.定义
最近邻 (k-Nearest Neighbors, KNN) 算法是一种分类算法, 应用场景有字符识别、 文本分类、 图像识别等领域。
该算法的思想是: 一个样本与数据集中的k个样本最相似, 如果这k个样本中的大多数属于某一个类别, 则该样本也属于这个类别。


2.k值选择
选择较小的K值,较小的邻域中的训练实例进行预测,学习的近似误差会减小,但是学习的估计误差会增大,预测结果会对近邻的实例点分成敏感。换句话说,K值减小就意味着整体模型变复杂,分的不清楚,就容易发生过拟合;
选择较大K值,用较大邻域中的训练实例进行预测,优点是可以减少学习的估计误差,但近似误差会增大,也就是对输入实例预测不准确,K值得增大就意味着整体模型变的简单。
K值一般取一个比较小的数值,通常采用交叉验证法来选取最优的K值。


3.代码实现

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值