机器学习基础第二节

本文介绍了机器学习中的降维技术,包括特征选择、PCA和LDA。讲解了如何通过PCA来降低特征数量并保留90%-95%的信息。此外,还概述了机器学习流程,涉及数据类型、数据处理、特征工程、模型选择和评估,以及常用数据集和转换器类的使用。
摘要由CSDN通过智能技术生成

降维 

减少特征数量

两种方法降维:

(1)特征选择 从中选择部分特征作为方法

单纯滴从提取到所有特征中选择部分特征作为训练集的特征,特征在选择前和选择后可以改变 值、可以可以不改变值,但是选择后的特征位数肯定比选择前小。

主要方法 过滤式filter   嵌入式 包裹式

过滤式 VarianceThreshold

主成分分析 PCA

sklearn.decomposition

特征数量达到上百个时候,考虑数据的简化问题

削减回归分析或者聚类分析中特征的数量,但是数据所包含的信息要损耗最少

高维数据容易出现的问题 数据之间都是相关联的

PCA.fit_transform(X)

经验:信息保存90%-95%比较好

其他降维方法:线性判别分析 LDA

机器学习基础

数据类型 离散型数据 连续性数据

离散型是区间内不可分,连续性是区间内可分

第一步 建立模型 根据数据类型划分应用种类 明确问题做什么

第二步 数据基本处理 pandas处理数据

第三步 特征工程 对特征进行处理 

第四步 找到合适的算法进行预测

 第五步 模型评估,判定效果

第六步 上线使用 以API形式提供

sklearn 数据集

数据集划分  训练集和测试集,一般分为7:3  8:2  建立模型和评估模型

sklearn.model_selection.train_test_split

sklearn.datasets 加载获

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值