数据挖掘的5大流程:
1、获取数据
2、数据预处理
3、特征工程
将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以通过挑选最相关的特征,提取特征以及创建特征来是想
4建模、测试模型并预测结果
5、上线模型
特征工程
sklearn的预处理模块Preprocessing、 Dimensionality reduction
Preprocessing 基本包含数据预处理所有内容
Impute 填补缺失值
feature_selection 包含特征选择的各种方法的实践
fit_transform() fit 接口中只允许导入至少二维数组,一维会报错,输入的是特征矩阵,现实案例中不会是一维
inverse_transform()
Preprocessing
数据无量纲化
线性无量纲化包括去中心化处理和缩放处理
preprocessing.MinMaxScaler 数据归一化 Normalization 归一化之后的数据服从正态分布
feature_range 控制我们希望把数据压缩到的范围 默认[0,1]
preprocessing.StandardScaler 转换为标准正太分布
建议先使用StandardScaler 效果不好换MinMaxScaler
Impute.SimpleImputer 填补缺失值 实例化、fit_transform()
missing_values 数据缺失值长什么样,默认空值np.nan
strayegy 填充策略 均值 终止 众数 constant
data.loc[].values.reshape