降维
减少特征数量
两种方法降维:
(1)特征选择 从中选择部分特征作为方法
单纯滴从提取到所有特征中选择部分特征作为训练集的特征,特征在选择前和选择后可以改变 值、可以可以不改变值,但是选择后的特征位数肯定比选择前小。
主要方法 过滤式filter 嵌入式 包裹式
过滤式 VarianceThreshold
主成分分析 PCA
sklearn.decomposition
特征数量达到上百个时候,考虑数据的简化问题
削减回归分析或者聚类分析中特征的数量,但是数据所包含的信息要损耗最少
高维数据容易出现的问题 数据之间都是相关联的
PCA.fit_transform(X)
经验:信息保存90%-95%比较好
其他降维方法:线性判别分析 LDA
机器学习基础
数据类型 离散型数据 连续性数据
离散型是区间内不可分,连续性是区间内可分
第一步 建立模型 根据数据类型划分应用种类 明确问题做什么
第二步 数据基本处理 pandas处理数据
第三步 特征工程 对特征进行处理
第四步 找到合适的算法进行预测
第五步 模型评估,判定效果
第六步 上线使用 以API形式提供
sklearn 数据集
数据集划分 训练集和测试集,一般分为7:3 8:2 建立模型和评估模型
sklearn.model_selection.train_test_split
sklearn.datasets 加载获