机器学习（三）：梯度下降Gradient descent

芷芷在学习

已于 2024-03-05 17:37:58 修改

阅读量866

点赞数 23

分类专栏：机器学习笔记文章标签：机器学习 python 人工智能

于 2024-03-01 15:54:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45733884/article/details/136395891

版权

机器学习笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

为了找到更好的模型，需要找到代价函数的最小值。梯度下降是找到代价函数最小值的一种算法。

一、梯度下降算法

以线性回归为例，模型：f(x)=wx+b

平方误差代价函数：

$J(w,b)=\frac{1}{2m}\sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})^{2}$

梯度下降：

$w = w - \alpha \frac{\partial }{\partial w}J(w,b)$

$b = b - \alpha \frac{\partial }{\partial b}J(w,b)$

其中：

学习率α：0-1的正数，控制梯度下降的步幅，代价函数的导数控制下降的方向，并和学习率一起控制下降的步幅。

导数 $\frac{\partial }{\partial w}J(w,b)$ ：代价函数J在(w,b)点的切线斜率

二、运行梯度下降

选取一个w和b，然后在每一步中执行：

tmp_w=当前w值-学习率*(J对w求导)
tmp_b=当前b值-学习率*(J对b求导)
计算出的tmp_w更新到下一步的w值
计算出的tmp_b更新到下一步的b值
每一次更新w和b，使其更接近J最小值，一直到算法收敛，得到J的局部最小值

划重点：w和b必须同步更新。

错误做法：计算出tmp_w后直接更新w，然后再计算temp_b，这会导致新w和旧b计算出temp_b，结果是不正确的

三、直观理解梯度下降

为什么梯度下降能找到J的最小值

以线性回归为例，模型：f(x)=wx

平方误差代价函数：

$J(w)=\frac{1}{2m}\sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})^{2}$

梯度下降：

$w = w - \alpha \frac{\partial }{\partial w}J(w,b)$

当选择一个w，w在最小值的右侧时，导数 $\frac{\partial }{\partial w}J(w,b)$ 为正，学习率α是0-1的正数，因此每次梯度下降后，w必然减小。直至到达最小值时，导数 $\frac{\partial }{\partial w}J(w,b)$ 为0，每次梯度下降后，w不变

当选择一个w，w在最小值的左侧时，导数 $\frac{\partial }{\partial w}J(w,b)$ 为负，学习率α是0-1的正数，因此每次梯度下降后，w必然变大。直至到达最小值时，导数 $\frac{\partial }{\partial w}J(w,b)$ 为0，每次梯度下降后，w不变

局部最小值

下图的某代价函数的三维图，可以视作山峰山谷。选取一个点(w,b)，选择一个方向进行梯度下降，梯度下降的每一次更新，就迈向一个更低点，一直到达某个山谷，即局部最小值。

下图是平分误差代价函数，像这种像碗状的代价函数称为凸函数Convex function。凸函数只有一个最小值

四、学习率和导数

学习率α的选择

如果学习率α太小，梯度下降能找到J的最小值，但是速度会很慢，如下图所示。

如果学习率α太大，梯度下降会越过最小值，导致无法找到最小值，无法收敛，甚至发散，如下图所示。

导数的变化规律

接近局部最小值时，导数越来越小，梯度下降的更新步长越来越小。直到，到达局部最小值时，导数变成0，w=w-α*0，w不变。

批量梯度下降Batch gradient descent

平方误差代价函数的梯度下降，每次更新参数时都会计算训练集的所有数据，这属于批量梯度下降

有一些梯度下降，每次更新参数仅计算训练集的最小集数据，不属于批量梯度下降

五、线性回归的梯度下降

以线性回归为例，模型：f(x)=wx+b

平方误差代价函数：

$J(w,b)=\frac{1}{2m}\sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})^{2}$

梯度下降：

$w = w - \alpha \frac{\partial }{\partial w}J(w,b)$

$b = b - \alpha \frac{\partial }{\partial b}J(w,b)$

可把J(w,b)代入到梯度下降算法，即：

$w = w - \alpha \frac{\partial }{\partial w}J(w,b)$

$=w- \alpha \frac{\partial }{\partial w}(\frac{1}{2m}\sum_{i=1}^{m}(f_{w,b}(x)^{(i)}-y^{(i)})^{2})$

$=w- \alpha \frac{\partial }{\partial w}(\frac{1}{2m}\sum_{i=1}^{m}(wx^{(i)}+b-y^{(i)})^{2})$

$=w- \alpha *\frac{1}{2m}\sum_{i=1}^{m}(wx^{(i)}+b-y^{(i)})*2x^{(i)}$

$=w- \alpha *\frac{1}{m}\sum_{i=1}^{m}(wx^{(i)}+b-y^{(i)})x^{(i)}$

$=w- \alpha *\frac{1}{m}\sum_{i=1}^{m}(f_{w,b}(x^{(i)})-y^{(i)})x^{(i)}$

$b = b - \alpha \frac{\partial }{\partial b}J(w,b)$

$=b- \alpha \frac{\partial }{\partial b}(\frac{1}{2m}\sum_{i=1}^{m}(f_{w,b}(x)^{(i)}-y^{(i)})^{2})$

$=b- \alpha \frac{\partial }{\partial b}(\frac{1}{2m}\sum_{i=1}^{m}(wx^{(i)}+b-y^{(i)})^{2})$

$=b- \alpha *\frac{1}{2m}\sum_{i=1}^{m}(wx^{(i)}+b-y^{(i)})*2$

$=b- \alpha *\frac{1}{m}\sum_{i=1}^{m}(wx^{(i)}+b-y^{(i)})$

$=b- \alpha *\frac{1}{m}\sum_{i=1}^{m}(f_{w,b}(x^{(i)})-y^{(i)})$

其中，求导以后多了一个系数2， $b=b- \alpha *\frac{1}{2m}\sum_{i=1}^{m}(wx^{(i)}+b-y^{(i)})*2$ ，这就是平方误差代价函数会额外除以2的原因，这样会更加简洁。

推导完成后，就可以用这个梯度算法来找到J的最小值

$w=w- \alpha *\frac{1}{m}\sum_{i=1}^{m}(f_{w,b}(x^{(i)})-y^{(i)})x^{(i)}$

$b=b- \alpha *\frac{1}{m}\sum_{i=1}^{m}(f_{w,b}(x^{(i)})-y^{(i)})$

学习来源：B站吴恩达机器学习：4.1-4.6节

芷芷在学习

关注

23
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
机器学习（三）：梯度下降Gradient descent

为了找到更好的模型，需要找到代价函数的最小值。梯度下降是找到代价函数最小值的一种算法。
复制链接

扫一扫

专栏目录

芷芷在学习

博客等级

码龄5年

10
原创

90
点赞

77
收藏

76
粉丝

关注

私信

热门文章

分类专栏

机器学习笔记 10篇

最新评论

机器学习（十）：神经网路和需求预测
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题“机器学习（十）：神经网络和需求预测”听起来非常有趣和引人入胜。您的持续创作让人印象深刻，希望您能继续分享关于机器学习领域的知识。或许下一步可以探讨一些实际案例，结合实践经验与理论知识，让读者更加深入地理解神经网络在需求预测中的应用。期待您更多的精彩内容！
机器学习（九）：过拟合和正则化
CSDN-Ada助手: 恭喜你写了第九篇博客，标题看起来很有深度！学习机器学习过程中遇到过拟合和正则化确实是一个很重要的话题。希望你能继续坚持创作，分享更多关于这方面的知识。下一步建议可以探讨一下不同的正则化方法在解决过拟合问题上的效果，这样可以让读者更全面地了解这个领域。期待你的下一篇博客！
机器学习（七）：逻辑（logistic）回归及决策边界
CSDN-Ada助手: 恭喜作者发布了第七篇关于机器学习的博客，标题看起来非常吸引人！逻辑回归及决策边界是一个非常有趣的话题，我期待着能够从您的博客中学到更多有关这个领域的知识。希望您在未来的创作中能够加入更多实际案例或者应用场景，这样读者能够更直观地理解您分享的知识。期待您的下一篇博客！
机器学习（八）：逻辑回归的代价函数和梯度下降
CSDN-Ada助手: 恭喜您写了第8篇博客！标题为“机器学习（八）：逻辑回归的代价函数和梯度下降”，内容看起来非常专业和深入。不过在下建议，接下来可以考虑增加一些实际案例或者代码实现，让读者更直观地理解逻辑回归的应用和实现过程。期待您的下一篇作品！
机器学习（六）：学习曲线、学习率的选择、特征工程和多项式回归
CSDN-Ada助手: 恭喜您第6篇博客《机器学习（六）：学习曲线、学习率的选择、特征工程和多项式回归》的发布！内容涵盖了学习曲线、学习率的选择、特征工程和多项式回归，对于深入学习机器学习的读者来说应该是一份很有价值的资料。建议您在下一篇博客中可以分享一些实际案例，以及如何在实际项目中应用这些技术，让读者更容易理解和实践。期待您的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。