2021/1/24
特征预处理
其实就是把得到的数据样本,特征数据转换算法可用的数据。
- 对于数值型数据,用到两大方法来预处理 : 1.归一化,2.标准化。还有缺失值的预处理
- 对于类别型数据, 用one-hot编码来预处理
- 对于时间类型数据,用时间切分方法来预处理
归一化
sklearn的预处理APIsklearn.preprocessing
所有预处理方法都在这个模块里面
特点
通过对原始数据变化,映射到默认的[0,1]这个区间
数据变化后最终的数字是X"
目的是为了某一个特征不会对最终结果造成更大影响
MinMaxScaler
MinMaxScaler(feature_range = (0,1)...)
: 每个特征会缩放到指定范围(默认[0,1])
-MinMaxScaler.fit_transform(x)
: X:numpy array格式的数据[n_samples,n_features]. 返回一个转换后相同形状的array
归一化总结
在特定场景下最大值和最小值 很容易受到异常点的影响,所以这种归一化的鲁棒性(反应产品稳定的词)较差,只适合传统精确小数据场景(平常应用中很少有这样的场景,所以也很少用归一化)。
标准化
特点
通过对原始数据进行变换把数据变换到均值为0,标准差为1的范围内。
目的也是为了某一个特征数据不会对最终结果造成更大的影响。
StandarScaler
标准化的APIsclkit-learn.preprocessing.St