2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

最新推荐文章于 2024-06-18 20:39:52 发布

YJF-NJU

最新推荐文章于 2024-06-18 20:39:52 发布

阅读量1.1k

点赞数

文章标签： sklearn 机器学习分类

本文链接：https://blog.csdn.net/weixin_45526009/article/details/122524011

版权

sklearn数据集

①sklearn数据集
在这里插入图片描述
load_* 小数据集

fetch_* 大数据集

②数据集划分：
训练集—建立模型：测试集—评估模型=7.5：2.5
API:默认乱序：
在这里插入图片描述
三个参数：特征值（二维数组：样本*特征值）、目标值（一维数组：标准值）、测试集占比
返回值：4个返回值（固定位置）

在这里插入图片描述

转换器、预估器

①转换器
在这里插入图片描述
不要重复fit，会改变transform标准
②预估器（predict预测结果，score计算准确率）
所有的算法都带有fit、predict、score这三个算法

在这里插入图片描述

KNN-k近邻算法

①原理:
(简略）通过计算与已知样本的距离来判断它的分类；
如果一个样本在特征空间中的K个最相似（特征空间最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别
如何求距离：欧式距离
样本特征之间的距离
在这里插入图片描述
样本计算前一定要进行标准化
API:

例子：
①数据处理

Isin（）函数的使用
基本流程：每个算法下面都有fit、predict、score三个函数

算法特点
特点：
①k值取多大，有什么影响（n_neighbors）–属于超参数
K小—容易受异常点影响
K大—容易受k值数量（类别）波动影响
②性能问题
时间复杂度很高、耗时很长

算法优点
简单，易于理解实现，简单，易于理解，易于实现，无需估计参数，无需训练（一次计算得出结果，无需迭代）

算法缺点
懒惰算法，对测试样本分类时的计算量大，内存开销大
必须指定k值，k值选择不当，分类精度不能保证

使用场景：
几千-几万个样本

朴素贝叶斯（前提-特征独立，如果不独立结果不好）

①概率基础
在这里插入图片描述（相互独立的特征之间才有这种关系）

②朴素贝叶斯（）
预测目标属于所有类别中各个类别的概率，最大的就是所属分类
例；文档分类—词是特征值，
在这里插入图片描述

特殊处理：拉普拉斯平滑—未防止类别为0概率项影响全局

API:（没有超参数，影响结果较小）–只有超参数才会提高准确率
在这里插入图片描述

特点：
①训练集误差大，结果肯定不好，依赖训练集
②不需要调参—没有超参数
优点：
①朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。
②对缺失数据不太敏感，算法也比较简单，常用于文本分类。
③分类准确度高，速度快
缺点：
①需要知道先验概率P(F1,F2,…|C)，因此在某些时候会由于假设的先验，模型的原因导致预测效果不佳
②假设文章特征词之间独立不相关

分类模型性能评估

①准确率（最常见最常使用）
在这里插入图片描述
直接用score就行

②混淆矩阵—精确率、召回率（并不是所有的都需要）
在这里插入图片描述
精确率：

召回率；

API:

交叉验证与网格所有调参

①交叉验证（训练集划分—训练集、验证集）–将所有数据分成n等分—并不具备调参能力
4等分就是4折交叉验证；一般采用10折交叉验证
在这里插入图片描述 ②网格搜索—调参数（与交叉验证一同使用）

如果有多个超参数：采用排列组合的方式，组合进行调参—穷举法

API:
在这里插入图片描述

例子：对knn进行超参数的调参

YJF-NJU

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2022-1-16第三章机器学习基础-sklearn 数据集、分类算法、模型性能评估方法

sklearn数据集①sklearn数据集load_* 小数据集fetch_* 大数据集②数据集划分：训练集—建立模型：测试集—评估模型=7.5：2.5API:默认乱序：三个参数：特征值（二维数组：样本*特征值）、目标值（一维数组：标准值）、测试集占比返回值：4个返回值（固定位置）转换器、预估器①转换器不要重复fit，会改变transform标准②预估器（predict预测结果，score计算准确率）所有的算法都带有fit、predict、score这三个算法K
复制链接

扫一扫