关于特征归一化/标准化
借鉴博客链接:https://blog.csdn.net/blogshinelee/article/details/102875044
常用的特征归一化方法
-
Rescaling (min-max normalization、range scaling):
-
Mean normalization
-
Standardization (Z-score Normalization):
-
Scaling to unit length:
什么时候需要特征归一化
- 涉及或隐含距离计算的算法,比如K-means、KNN、PCA、SVM等,一般需要feature scaling
- 损失函数中含有正则项时,使损失函数平等看待每一维特征。
- 梯度下降算法。
什么时候不需要特征归一化
- 与距离计算无关的概率模型,不需要feature scaling,比如Naive Bayes;
- 与距离计算无关的基于树的模型,不需要feature scaling,比如决策树、随机森林等,树中节点的选择只关注当前特征在哪里切分对分类更好,即只在意特征内部的相对大小,而与特征间的相对大小无关。