12种数据量纲化处理方式
12种量纲化具体计算公式
标准化和归一化都是指特征工程中的特征缩放过程
使用特征缩放的作用是:
(1)使不同量纲的特征处于同一数值量级,减少方差大的特征的影响,使模型更准确。
(2)加快学习算法的收敛速度。
缩放过程可以分为以下几种:
(1)缩放到均值为0,方差为1(Standardization——StandardScaler())
(2)缩放到0和1之间(Standardization——MinMaxScaler())
(3)缩放到-1和1之间(Standardization——MaxAbsScaler())
(4)缩放到0和1之间,保留原始数据的分布(Normalization——Normalizer())
上面的(1)就是常说的z-score归一化,(2)是min-max归一化。
z-score归一化: 将数值范围缩放到0附近,但没有改变数据分布。
最常见的标准化方法就是Z标准化。
这种方法涉及原始数据的均值(mean)和标准差(standard deviation)
x_normal=(x-x.mean())/(x.std())
min-max归一化:这种是对数据的数值范围进行特定缩放,但不改变其数据分布的一种线性特征变换
x_scale=(x-x.min())/(x.max()-x.min())