2022-1-14第三章机器学习基础--数据降维、机器学习算法分类、算法开发流程

特征预处理–数据降维

维度:特征的类别数量
常用方法:①特征选择②主成分分析

①特征选择
定义:单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,也可以不改变值,但是选择后的特征维度肯定比之前小,因为只选择了其中一部分特征

三大方法:Filter(过滤式):VarianceThreshold(Variance:方差)
Embedded(嵌入式):正则化、决策树
Wrapper(包裹式)–基本不使用
API:
只介绍Filter过滤式
在这里插入图片描述
指定方差大小,删除低方差的特征值(因为不具备差异性)
在这里插入图片描述在这里插入图片描述
神经网络也具有特征选择的效果

②主成分分析 (PCA本质)

API:
在这里插入图片描述
PCA:
本质:分析、简化数据集的技术
目的:数据维数压缩、尽可能降低原数据的维数,损失少量信息
作用:可以削减回归分析或者聚类分析中特征的数量
应用场景:特征数量达到上百的时候,考虑数据的简化(数据会改变、特征数量也会减少)–与特征选择的主要区别
在这里插入图片描述
n_components:小数(百分比0-1)–指定信息保留量一般设置为90-95、整数(减少的特征数量)–一般不使用整数

在这里插入图片描述在这里插入图片描述
降维实例
在这里插入图片描述

机器学习基础问题

(1)算法是核心,数据和计算是基础
(2)算法由算法工程师做;
大多数做法只是:①分析很多数据②分析具体业务③应用常见的算法④特征工程、调参数、优化

机器学习算法分类

①监督学习(预测)–结构(特征值、目标值)
分类:K-邻近算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络***(离散型数据)***
回归:线性回归、岭回归(连续性数据)–股票预测、房价预测
标注:隐马尔可夫模型
(输入数据有特征值有标签、有标准答案)
②无监督学习(只有特征值)
聚类:k-means
(输入数据只有特征值、没有标准答案)

机器学习算法开发流程

①数据—原始数据
②明确问题—建立概念模型
③数据的基本处理—基于pandas
④特征工程—对数据特征进行处理
⑤寻找合适算法进行预测—模型:算法+数据
⑥模型的评估—具体的评估标准
若模型评估没通过:
1)换算法、调整参数
2)特征工程算法的调整

Sklearn 数据集

在这里插入图片描述

①小数据集
datasets.load()
在这里插入图片描述
在这里插入图片描述

②大数据集
datasets.fetch()
在这里插入图片描述

数据集划分
训练集—建立模型:测试集—评估模型=7.5:2.5

API:默认乱序
在这里插入图片描述
三个参数:特征值(二维数组:样本*特征值)、目标值(一维数组:标准值)、测试集占比
返回值:4个返回值(固定位置)

在这里插入图片描述

转换器、预估器
①转换器:
在这里插入图片描述
要重复fit,会改变transform标准

②预估器
(fit训练集;预估器预测结果、预测准确率)
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值