数据预处理：标准化和归一化

对许

已于 2024-01-04 10:05:14 修改

阅读量906

点赞数 9

分类专栏： # 人工智能与机器学习文章标签：机器学习

于 2023-12-31 19:39:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55629186/article/details/135318908

版权

标准化和归一化

1、数据预处理概述

在选择了合适模型的前提下，机器学习可谓是“训练台上3分钟，数据数量和质量台下10年功”。数据的收集与准备是机器学习中的重要一步，是构建一个好的预测模型大厦的基石。数据的数量与质量直接决定了预测模型的好坏

所以，在数据的收集与准备这一步中，必须做好数据预处理。Scikit-Learn提供了标准化和归一化等API方便我们进行数据预处理。标准化和归一化是常用的数据缩放方式

数据预处理的一般顺序（不一定全需要做）为：处理离群值、处理缺失值、标准化或归一化、纠偏、连续特征离散化、类别特征编码、特征增强和对不平衡数据集的处理（仅针对分类问题）

那么，为什么要进行标准化和归一化呢？

例如，我们的某个样本与其它样本数值相差较大，那么，该样本特征的方差就会比其他样本特征大几个数量级，那么，它就会在学习算法中占据主导位置，导致学习器并不能像我们说期望的那样，从其他特征中学习。也就是说，该样本会主导其它样本，最终导致预测结果的偏差

当某个或某些特征的单位或大小与其它样本相差较大，或者某特征的方差比其他的特征要大出几个数量级，那么，该特征就容易影响（支配）目标结果，使得一些算法无法学习到其他的特征，即无量纲化

因此，我们需要做的是对样本数据进行数据标准化或归一化，将所有的数据映射到同一尺度

2、数据标准化

2.1、什么是数据标准化

定义：数据标准化通过减去均值然后除以方差（或标准差），转化为均值为0，标准差为1的标准正态分布，转化公式为：
$X^{'}=\frac{X-\mu}{\sigma}$

其中， $\mu$ 为均值， $\sigma$ 为标准差。标准化操作是将数据按其属性（按列）减去平均值，然后再除以标准差

当数据X按均值 $\mu$ 中心化后，再按标准差 $\sigma$ 缩放，数据就变成满足均值为0，标准差（方差）为1的分布，而这个过程，就叫做数据标准化（Standardization，⼜称

最低0.47元/天解锁文章

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
数据预处理：标准化和归一化

1、数据预处理概述2、数据标准化3、数据归一化4、标准化和归一化怎么选在选择了合适模型的前提下，机器学习可谓是“训练台上3分钟，数据数量和质量台下10年功”。数据的收集与准备是机器学习中的重要一步，是构建一个好的预测模型大厦的基石。数据的数量与质量直接决定了预测模型的好坏所以，在数据的收集与准备这一步中，必须做好数据预处理。Scikit-Learn提供了标准化和归一化等API方便我们进行数据预处理。标准化和归一化是常用的数据缩放方式。
复制链接

扫一扫

专栏目录

对许 CSDN认证博客专家 CSDN认证企业博客

码龄3年

215: 原创

561: 周排名

7702: 总排名

27万+: 访问

: 等级

3840: 积分

1万+: 粉丝

1634: 获赞

29: 评论

2280: 收藏

私信

关注

热门文章

分类专栏

最新评论

os.path模块路径判断isfile()和isdir()中的坑
weixin_64816591: isfile函数有bug 例如isfile("1.1 第一章")
Spark中的JOIN机制
穷苦书生_万事愁: 此篇博主的文章对我带来了全新的认识，对Spark中的JOIN机制有了更深入的了解。博主的描述十分详细，让我感受到了博主在这个领域的专业知识和丰富经验。期待博主能够继续分享更多有价值的文章，并且希望能够得到博主的指导，一同进步成长。非常感谢博主的付出和支持！
如何有效的禁止Google Chrome自动更新？
Q_yt: 但我有次开飞机访问github时，发现chrome的更新又正常了，又自动更新了。关闭飞机后，才正常禁用
如何有效的禁止Google Chrome自动更新？
Q_yt: 按博主的方法执行后，本地可以禁用了。
深入理解对象存储（OSD）
问老大: 写的好棒！非常清晰，看完之后感觉了解的更清楚了！

大家在看

泛微OA BPM全程数字化业务介绍、管理、财务一体化数据业务架构图上帝视角 01 336

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。