特征比例调整
目录
1、归一化
归一化通常指的是把特征调整到0-1之间,通常用于有界区间值的问题
sklearn中的实现:
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test)
2、标准化
标准化对于许多机器学习算法来说更为实用,特别是梯度下降等优化算法,因为许多线性模型,比如逻辑回归或支持向量机,把权重值初始化为0或接近0,使用标准化,可以把特征值的中心设在均值0,标准差为1的位置,这样特征列呈正态分布,可以使学习权重更为容易。
为均值,
为标准差
sklearn中的实现:
from sklearn.preprocessing import StandardScaler
std = StandardScaler()
X_train_std = std.fit_transform(X_train)
X_test_std = std.transform(X_test)