机器学习（五）：特征缩放

芷芷在学习

已于 2024-03-06 11:02:54 修改

阅读量389

点赞数 8

分类专栏：机器学习笔记文章标签：机器学习人工智能

于 2024-03-06 11:02:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45733884/article/details/136497858

版权

机器学习笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、为什么要进行特征缩放

以房价模型为例，假设影响房价的因素是面积 $x_{1}$ 和房间数 $x_{2}$ ，模型为：

$f_{w,b}(x)=w_{1}*x_{1}+w_{2}*x_{2}+b$

训练集中，两个特征的范围分别是：

这个模型中，训练集数据分布大概是：

其代价函数等值线是一个椭圆形：

由于 $x_{1}$ 的取值范围很大，所以 $w_{1}$ 改变一点点，代价函数的值就改变很大，这就导致梯度下降时容易超过最小值对应的 $w_{1}$ （如上图的红色箭头），因此找到最小值的速度变慢。

如果把 $x_{1}$ 和 $x_{2}$ 进行缩放，使其的取值范围接近呢？

$x_{1}$ 和 $x_{2}$ 缩放后，训练集分布大概是这样的：

其代价函数等值线，接近圆形，如下所示：

在这种场景下，梯度下降可以更快地找到最小值。因此进行特征缩放，可以更快找到代价函数最小值。

PS:并不是所有的特征都必须缩放，假设特征 $x_{1}$ 的原本范围和其他特征 $x_{2}$ 、 $x_{3}$ 缩放后相近，那可以不缩放特征 $x_{1}$ 。

二、特征缩放方法

2.1 最大值缩放

公式：

$x_{j,scaled} = \frac{x_{j}}{x_{max}}$

举例：

2.2 均值归一化 Mean normalization

公式：

$x_{j,scaled} = \frac{x_{j}-\mu _{j}}{x_{max}-x_{min}}$

其中， $\mu _{j}$ 是第j个特征的训练集数据平均值

举例：

$x_{1}$ 的训练集平均值是 $\mu _{1}=600$ ， $x_{2}$ 的训练集平均值是 $\mu _{2}=2.3$

2.3 Z-score归一化 Z-score normalization

公式：

$x_{j,scaled} = \frac{x_{j}-\mu _{j}}{\sigma _{j}}$

其中， $\mu _{j}$ 是第j个特征的训练集数据平均值， $\sigma _{j}$ 是第j个特征的训练集数据的标准差

举例：

$x_{1}$ 的训练集平均值是 $\mu _{1}=600$ ，标准差是 $\sigma _{1}=450$ ， $x_{2}$ 的训练集平均值是 $\mu _{2}=2.3$ ，标准差 $\sigma _{2}=1.4$

学习来源：B站吴恩达：6.1-6.2节

芷芷在学习

关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
机器学习（五）：特征缩放

在这种场景下，梯度下降可以更快地找到最小值。因此进行特征缩放，可以更快找到代价函数最小值。改变一点点，代价函数的值就改变很大，这就导致梯度下降时容易超过最小值对应的。（如上图的红色箭头），因此找到最小值的速度变慢。PS:并不是所有的特征都必须缩放，假设特征。以房价模型为例，假设影响房价的因素是面积。进行缩放，使其的取值范围接近呢？是第j个特征的训练集数据平均值，是第j个特征的训练集数据的标准差。是第j个特征的训练集数据平均值。缩放后相近，那可以不缩放特征。的取值范围很大，所以。的原本范围和其他特征。
复制链接

扫一扫

专栏目录

芷芷在学习 CSDN认证博客专家 CSDN认证企业博客

码龄5年

10: 原创

116万+: 周排名

9万+: 总排名

4184: 访问

: 等级

190: 积分

76: 粉丝

90: 获赞

8: 评论

77: 收藏

私信

关注

热门文章

分类专栏

机器学习笔记 10篇

最新评论

机器学习（十）：神经网路和需求预测
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题“机器学习（十）：神经网络和需求预测”听起来非常有趣和引人入胜。您的持续创作让人印象深刻，希望您能继续分享关于机器学习领域的知识。或许下一步可以探讨一些实际案例，结合实践经验与理论知识，让读者更加深入地理解神经网络在需求预测中的应用。期待您更多的精彩内容！
机器学习（九）：过拟合和正则化
CSDN-Ada助手: 恭喜你写了第九篇博客，标题看起来很有深度！学习机器学习过程中遇到过拟合和正则化确实是一个很重要的话题。希望你能继续坚持创作，分享更多关于这方面的知识。下一步建议可以探讨一下不同的正则化方法在解决过拟合问题上的效果，这样可以让读者更全面地了解这个领域。期待你的下一篇博客！
机器学习（七）：逻辑（logistic）回归及决策边界
CSDN-Ada助手: 恭喜作者发布了第七篇关于机器学习的博客，标题看起来非常吸引人！逻辑回归及决策边界是一个非常有趣的话题，我期待着能够从您的博客中学到更多有关这个领域的知识。希望您在未来的创作中能够加入更多实际案例或者应用场景，这样读者能够更直观地理解您分享的知识。期待您的下一篇博客！
机器学习（八）：逻辑回归的代价函数和梯度下降
CSDN-Ada助手: 恭喜您写了第8篇博客！标题为“机器学习（八）：逻辑回归的代价函数和梯度下降”，内容看起来非常专业和深入。不过在下建议，接下来可以考虑增加一些实际案例或者代码实现，让读者更直观地理解逻辑回归的应用和实现过程。期待您的下一篇作品！
机器学习（六）：学习曲线、学习率的选择、特征工程和多项式回归
CSDN-Ada助手: 恭喜您第6篇博客《机器学习（六）：学习曲线、学习率的选择、特征工程和多项式回归》的发布！内容涵盖了学习曲线、学习率的选择、特征工程和多项式回归，对于深入学习机器学习的读者来说应该是一份很有价值的资料。建议您在下一篇博客中可以分享一些实际案例，以及如何在实际项目中应用这些技术，让读者更容易理解和实践。期待您的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。