5.特征缩放、学习率、特征工程和多项式回归

派大星的最爱海绵宝宝

已于 2022-09-13 16:08:42 修改

阅读量218

点赞数

分类专栏：吴恩达机器学习文章标签：深度学习人工智能

于 2022-09-13 15:45:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44846755/article/details/126832265

版权

吴恩达机器学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

目录

feature scaling特征缩放

这些和梯度下降有什么关系呢？

第一种特征缩放

第二种mean normalization

第三种Z-score normalization

feature engineering特征工程

polynomial regression多项式回归

feature scaling特征缩放

显然第二个参数值的选取，更加接近于真实的价格500k。

当一个特征的值相对来说比较大的时候，参数的值应该相对来说取得小一点。

这些和梯度下降有什么关系呢？

可以看出第二个图非常的抖，对于w1，只要有一点小变化，预估价格或者损失函数就会变化很大。

找到损失函数的最小值，可能需要花费很多时间，所以我们需要特征缩放，即对训练数据进行一些变换transformation。

特征缩放后，我们的x1和x2范围都是0到1，数据都集中在了图的中心而不是原来的下方，对应的参数与损失函数的图像也更加圆，更易于找到全局最小值。

第一种特征缩放

第二种mean normalization

第二种可以加一些normalization，使数据缩放到0的附近，即-1到1之间。我们需要先求出x1的均值M1，然后再计算缩放比例，最后得出的值在0附近。

第三种Z-score normalization

第三种除以的数不再是最大值与最小值的差，而是standard deviation方差。

判断收敛

J在迭代后增加，意味着学习率alpha太大或者存在bug。

从图中可看出，迭代300后，J不会再减少，到400时J很有可能收敛。

还可以从第二种方法判断收敛，但是一般以第一种。

学习率

如上图所示，J的图像随着iteration时而增长时而减小，这意味着出现了bug或者学习率太大。

如下图所示，当选择的学习率太大时，可能会越过最低点，此时我们需要调小学习率。

当梯度下降更新公式是W1=W1+αd1时，可能会出现每一个迭代后J都在增加，这是因为d会使你逐渐远离全局最小值。

当梯度下降不起作用时，可以将学习率设置为一个很小的数，然后观察是否每个迭代J都会减小。即使这样，J有时也会增加，那意味着可能出现了bug。但是设置到很小值并不是一个最好的选择，因为运行时间会增加。

建议选择一系列α值，每个值都运行一些iterations，然后选择一个持续下降且快速的。

也可以选择设置为0.003，0.03等。

feature engineering特征工程

通过原先的特征，创建一个新的特征，有时候可能会创建出一个更好的模型。

polynomial regression多项式回归

对于第一个F函数，可能预测的price在之后会下降，这显然是不符合现实的，我们可以选择一个新的F，拥有x的立方。此时，特征缩放很重要。

另一种选择是使用根号x，有时可能模型会更好。

派大星的最爱海绵宝宝

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。