数据标准化、归一化都是特征工程中的特征放缩过程。
归一化
这样会将数据映射到 [0-1] 中
标准化
将数据的平均值降为0,标准差降为1
标准化和归一化详细也可参考:
标准化与归一化的详细知识
那机器学习都需要标准化吗?
需要标准化
机器学习中有部分模型是基于距离度量进行模型预测和分类的。由于距离对特征之间不同取值范围非常敏感,所以基于距离读量的模型是十分有必要做数据标准化处理的。
最典型基于距离度量的模型包括k近邻、kmeans聚类、感知机和SVM。
可以不用标准化(主要没有标签数据提供标准差数据)
另外,线性回归类的几个模型一般情况下也是需要做数据标准化处理的。
逻辑回归、决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取值大小并不敏感。所以这类模型一般不需要做数据标准化处理。另外有较多类别变量的数据也是不需要做标准化处理的。
(总结:线性回归类需要做标准化处理,而决策树(随机森林)对特征值大小不是很敏感,要好一点)
模型是否要标准化参考链接:
对于模型是否要标准化参考链接