转载请注明出处
什么是特征缩放
特征缩放其实就是标准化数据特征的范围。
为什么要进行特征缩放
特征缩放可以使得ML方法工作的更好,比如在k-nn的算法中,分类器主要是计算两点之间的欧几里得距离,如果一个feature比其他另外一个feature大超过一个数量级的情况下,那么两者之间的距离就会更大的偏向于这个feature。因此,我们必须对每个feature都进行归一化,将其规范到[0,1]的范围内,这样就可以加速model收敛的速度
特征缩放的一些方法
调节比例( rescaling)
这种方法是将我们的数据都规范到[0,1]或者[-1,1]之间,至于缩放到什么范围,完全由数据的性质来决定。计算公式如下:
,其中,x 是最初的特征值,x’x′是缩放后的值。
标准化( normalization)
特征标准化使每个特征的值有零均值(zero-mean)和单位方差(unit-variance),计算公式如下: