2022-1-14第三章机器学习基础--数据降维、机器学习算法分类、算法开发流程

最新推荐文章于 2024-07-22 14:29:03 发布

YJF-NJU

最新推荐文章于 2024-07-22 14:29:03 发布

阅读量333

点赞数

文章标签：机器学习算法分类

本文链接：https://blog.csdn.net/weixin_45526009/article/details/122494930

版权

特征预处理–数据降维

维度：特征的类别数量
常用方法：①特征选择②主成分分析

①特征选择
定义：单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值，也可以不改变值，但是选择后的特征维度肯定比之前小，因为只选择了其中一部分特征

三大方法：Filter（过滤式）：VarianceThreshold（Variance：方差）
Embedded（嵌入式）：正则化、决策树
Wrapper（包裹式）–基本不使用
API:
只介绍Filter过滤式
在这里插入图片描述
指定方差大小，删除低方差的特征值（因为不具备差异性）

神经网络也具有特征选择的效果

②主成分分析 (PCA本质)

API:
在这里插入图片描述
PCA:
本质：分析、简化数据集的技术
目的：数据维数压缩、尽可能降低原数据的维数，损失少量信息
作用：可以削减回归分析或者聚类分析中特征的数量
应用场景：特征数量达到上百的时候，考虑数据的简化（数据会改变、特征数量也会减少）–与特征选择的主要区别
在这里插入图片描述
n_components:小数（百分比0-1）–指定信息保留量一般设置为90-95、整数（减少的特征数量）–一般不使用整数

在这里插入图片描述
降维实例

机器学习基础问题

（1）算法是核心，数据和计算是基础
（2）算法由算法工程师做；
大多数做法只是：①分析很多数据②分析具体业务③应用常见的算法④特征工程、调参数、优化

机器学习算法分类

①监督学习（预测）–结构（特征值、目标值）
分类：K-邻近算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络***（离散型数据）***
回归：线性回归、岭回归（连续性数据）–股票预测、房价预测
标注：隐马尔可夫模型
（输入数据有特征值有标签、有标准答案）
②无监督学习（只有特征值）
聚类：k-means
（输入数据只有特征值、没有标准答案）

机器学习算法开发流程

①数据—原始数据
②明确问题—建立概念模型
③数据的基本处理—基于pandas
④特征工程—对数据特征进行处理
⑤寻找合适算法进行预测—模型：算法+数据
⑥模型的评估—具体的评估标准
若模型评估没通过：
1）换算法、调整参数
2）特征工程算法的调整

Sklearn 数据集

在这里插入图片描述

①小数据集
datasets.load()
在这里插入图片描述

②大数据集
datasets.fetch（）
在这里插入图片描述

数据集划分
训练集—建立模型：测试集—评估模型=7.5：2.5

API:默认乱序
在这里插入图片描述
三个参数：特征值（二维数组：样本*特征值）、目标值（一维数组：标准值）、测试集占比
返回值：4个返回值（固定位置）

在这里插入图片描述

转换器、预估器
①转换器：
在这里插入图片描述
要重复fit，会改变transform标准

②预估器
（fit训练集；预估器预测结果、预测准确率）
在这里插入图片描述

YJF-NJU

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2022-1-14第三章机器学习基础--数据降维、机器学习算法分类、算法开发流程

特征预处理–数据降维维度：特征的类别数量常用方法：①特征选择②主成分分析①特征选择定义：单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值，也可以不改变值，但是选择后的特征维度肯定比之前小，因为只选择了其中一部分特征三大方法：Filter（过滤式）：VarianceThreshold（Variance：方差）Embedded（嵌入式）：正则化、决策树Wrapper（包裹式）–基本不使用API:只介绍Filter过滤式指定方差大小，删除低方差的特征值（因
复制链接

扫一扫