About Feature Scaling and Normalization
对特征的标准化使得特征重新度量(rescaled)具有性质均值为 μ = 0 \mu=0 μ=0
以及标准方差为 σ = 1 \sigma=1 σ=1
变换的形式为:
z = x − μ σ z=\frac{x-\mu}{\sigma} z=σx−μ
对特征进行标准化,使其以0为中心,标准差为1,这不仅在我们比较不同单位的测量值时很重要,而且也是很多机器学习算法的一般要求。
直观上,我们可以认为梯度下降是一个突出的例子(一种优化算法,常用于logistic回归,支持向量机,感知机,神经网络等);由于特征在不同的尺度上,某些权重可能比其他权重更新得更快,因为特征值 x j x_j xj在权重更新中起着重要作用
Δ w j