实现特征缩放/归一化和标准化

最新推荐文章于 2024-03-06 11:02:39 发布

泛酸桂花酒

最新推荐文章于 2024-03-06 11:02:39 发布

阅读量538

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xianfei9651/article/details/107246693

版权

什么是特征缩放

特征缩放是用来标准化数据特征的范围

机器学习为什么需要特征缩放

在处理多维特征问题的时候，需要保证特征具有相近的尺度，这有助于梯度下降算法更快的收敛。
以预测房屋价格为例，假设有两个特征，房屋的尺寸和房屋的数量，尺寸的值为 0-
2000 平方英尺，而房间数量的值则是 0-5，以两个参数分别为横纵坐标，绘制代价函数的等
高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。、

image.png

特征缩放方法

1.最大值最小值归一化

image.png

优点：所有数据都能缩放到0～1之间
缺点：当min,max为离群值或异常值时，缩放后数据分布不均匀
2.方差归一化

image.png

优点：可减小异常值当影响
缺点：不一定所有数据都缩放到0～1之间
3.均值归一化

image.png

将所有数据缩放至0两边
4.标准归一化

image.png

归一化和标准化的区别

归一化：缩放仅仅跟最大、最小值的差别有关。输出范围在0-1之间
标准化：缩放和每个点都有关系，通过方差（variance）体现出来。与归一化对比，标准化中所有数据点都有贡献（通过均值和标准差造成影响）。输出范围是负无穷到正无穷

什么时候用归一化？什么时候用标准化？

1.如果对输出结果范围有要求，用归一化

2.如果数据较为稳定（图像或是视频的数据值处于固定区间），不存在极端的最大最小值，用归一化

3.如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响

标准化方法

min-max标准化(Min-max normalization)

image

优点：是对原始数据的线性变换，使结果落到[0,1]区间
缺点：有新数据加入的时候可能导致max和min的变化，需要重新定义
log函数转换

image

优点：使结果落在[0,1]之间
缺点：所有数据都要大于等于1

atan函数转换

image

优点：大于0数据被映射到[0,1]小于0被映射到[-1,1]区间上。
缺点：不是所有数据都映射到[0,1]

z-score 标准化(zero-mean normalization)

image

优点：经过处理符合标准正太分布，其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

泛酸桂花酒

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
实现特征缩放/归一化和标准化

什么是特征缩放特征缩放是用来标准化数据特征的范围机器学习为什么需要特征缩放在处理多维特征问题的时候，需要保证特征具有相近的尺度，这有助于梯度下降算法更快的收敛。以预测房屋价格为例，假设有两个特征，房屋的尺寸和房屋的数量，尺寸的值为 0-2000 平方英尺，而房间数量的值则是 0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才...
复制链接

扫一扫

目录

分类专栏

js 9篇
ts 5篇
arcgis 1篇
react 1篇
微信小程序 3篇
vue 3篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。