1 数据预处理 Preprocessing & Impute
preprocessing.MinMaxScaler数据归一化
MinMaxScaler有一个重要参数, feature_range,控制我们希望把数据压缩到的范围,默认是[0,1]。
使用 feature_range控制参数范围
当X中的特征数量非常多的时候,fit会报错并表示,数据量太大了我计算不了 ,此时使用partial_fit作为训练接口 ,scaler = scaler.partial_fit(data)
preprocessing.StandardScaler 数据标准化
当数据(x)按均值(μ)中心化后,再按标准差(σ)缩放,数据就会服从为均值为0,方差为1的正态分布(即标准正态分布),而这个过程,就叫做数据标准化
2 处理缺失值
impute.SimpleImputer
class sklearn.impute.SimpleImputer (missing_values=nan, strategy=’mean’, fill_value=None, verbose=0, copy=True)
使用从泰坦尼克号提取出来的数据进行实例填补
数据的前五行以及基本信息
3 处理分类型特征:编码与哑变量
pre