用sklearn.preprocessing做数据预处理（一）——Standardization

最新推荐文章于 2024-02-04 17:52:43 发布

又要起名字了

最新推荐文章于 2024-02-04 17:52:43 发布

阅读量528

点赞数

分类专栏：数据预处理文章标签： sklearn.preprocessing 数据预处理

本文链接：https://blog.csdn.net/weixin_44530236/article/details/88076923

版权

本文介绍了如何使用sklearn.preprocessing的Standardization方法进行数据预处理，将特征数据转化为标准正态分布。标准化包括去均值中心化和方差规模化，确保数据均值为0，方差为1。此外，文章还提到了StandardScaler类，用于在训练和测试数据上保持一致的转换，并展示了如何使用MinMaxScaler和MaxAbsScaler对数据进行归一化和规模化处理，特别是对稀疏数据和异常值的处理。

摘要由CSDN通过智能技术生成

Standardization标准化：将特征数据的分布调整成标准正态分布，亦叫高斯分布，也就是使得数据的均值为0，方差为1

标准化的原因在于如果有些特征的方差过大，则会主导目标函数，从而使参数估计器无法正确地学习其他特征
标准化的过程为两步：去均值的中心化（均值变为0）；方差的规模化（方差变为1）。
在sklearn.preprocessing中提供了一个scale的方法，可以实现以上功能。

from sklearn import preprocessing
import numpy as np

x = np.array([[1.,-1.,2.],
[2.,0.,0.],
[0.,1.,-1.]])
#将每一列特征标准化为标准特征分布，注意，标准化是针对每一列而言的
x_scale = preprocessing.scale(x)
x_scale

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

可以查看标准化后数据的均值和方差，已经变成0,1了
axis=0表示对每一列
x_scale.mean(axis=0)

array([0., 0., 0.])

axis=1表示对

最低0.47元/天解锁文章

又要起名字了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录