2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

sklearn数据集

①sklearn数据集
在这里插入图片描述
load_* 小数据集
在这里插入图片描述在这里插入图片描述
fetch_* 大数据集
在这里插入图片描述

②数据集划分:
训练集—建立模型:测试集—评估模型=7.5:2.5
API:默认乱序
在这里插入图片描述
三个参数:特征值(二维数组:样本*特征值)、目标值(一维数组:标准值)、测试集占比
返回值:4个返回值(固定位置)

在这里插入图片描述

转换器、预估器

①转换器
在这里插入图片描述
不要重复fit,会改变transform标准
②预估器(predict预测结果,score计算准确率)
所有的算法都带有fit、predict、score这三个算法

在这里插入图片描述

KNN-k近邻算法

①原理:
(简略)通过计算与已知样本的距离来判断它的分类;
如果一个样本在特征空间中的K个最相似(特征空间最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别
如何求距离:欧式距离
样本特征之间的距离
在这里插入图片描述
样本计算前一定要进行标准化
API:
在这里插入图片描述
例子:
①数据处理
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述Isin()函数的使用
基本流程:每个算法下面都有fit、predict、score三个函数
在这里插入图片描述
算法特点
特点:
①k值取多大,有什么影响(n_neighbors)–属于超参数
K小—容易受异常点影响
K大—容易受k值数量(类别)波动影响
②性能问题
时间复杂度很高、耗时很长

算法优点
简单,易于理解实现,简单,易于理解,易于实现,无需估计参数,无需训练(一次计算得出结果,无需迭代)

算法缺点
懒惰算法,对测试样本分类时的计算量大,内存开销大
必须指定k值,k值选择不当,分类精度不能保证

使用场景:
几千-几万个样本

朴素贝叶斯(前提-特征独立,如果不独立结果不好)

①概率基础
在这里插入图片描述(相互独立的特征之间才有这种关系)

②朴素贝叶斯()
预测目标属于所有类别中各个类别的概率,最大的就是所属分类
例;文档分类—词是特征值,
在这里插入图片描述
在这里插入图片描述
特殊处理:拉普拉斯平滑—未防止类别为0概率项影响全局
在这里插入图片描述

API:(没有超参数,影响结果较小)–只有超参数才会提高准确率
在这里插入图片描述

特点:
①训练集误差大,结果肯定不好,依赖训练集
②不需要调参—没有超参数
优点:
①朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
②对缺失数据不太敏感,算法也比较简单,常用于文本分类。
③分类准确度高,速度快
缺点:
①需要知道先验概率P(F1,F2,…|C),因此在某些时候会由于假设的先验,模型的原因导致预测效果不佳
②假设文章特征词之间独立不相关

分类模型性能评估

①准确率(最常见最常使用)
在这里插入图片描述
直接用score就行

②混淆矩阵—精确率、召回率(并不是所有的都需要)
在这里插入图片描述
精确率:
在这里插入图片描述
召回率;
在这里插入图片描述
API:
在这里插入图片描述
在这里插入图片描述

交叉验证与网格所有调参

①交叉验证(训练集划分—训练集、验证集)–将所有数据分成n等分—并不具备调参能力
4等分就是4折交叉验证;一般采用10折交叉验证
在这里插入图片描述②网格搜索—调参数(与交叉验证一同使用)
在这里插入图片描述
如果有多个超参数:采用排列组合的方式,组合进行调参—穷举法

API:
在这里插入图片描述
在这里插入图片描述
例子:对knn进行超参数的调参
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值