梯度下降算法主要通过哪两个控制因子实现最优参数选择？这两个因子分别起到什么作用？为什么计算损失函数最优值采用梯度下降算法而不是直接对损失函数求导数等于0时的最优解？如何判断梯度下降算法是否正确工作？

最新推荐文章于 2022-11-22 17:27:34 发布

平杨猪

最新推荐文章于 2022-11-22 17:27:34 发布

阅读量975

点赞数 3

分类专栏：机器学习基础文章标签：算法机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48388330/article/details/122627256

版权

机器学习基础专栏收录该内容

5 篇文章 0 订阅

订阅专栏

（1）梯度下降算法主要通过哪两个控制因子实现最优参数选择？这两个因子分别起到什么作用？

答：梯度下降算法有两个重要的控制因子：一个是步长，由学习率控制；一个是方向，由梯度指定。

1.在梯度下降算法中，步长决定了每一次迭代过程中，会往梯度下降的方向移动的距离。试想一下，如果步长很大，算法会在局部最优点附近来回跳动，不会收敛（如下图）；但如果步长太短，算法每步的移动距离很短，就会导致算法收敛速度很慢。

2.梯度的意义从几何意义上讲，就是函数变化增加最快的地方。具体来说，对于函数f(x,y),在点(x0,y0)，沿着梯度向量的方向就是(∂f/∂x0, ∂f/∂y0)T的方向是f(x,y)增加最快的地方。或者说，沿着梯度向量的方向，更加容易找到函数的最大值。反过来说，沿着梯度向量相反的方向，也就是 -(∂f/∂x0, ∂f/∂y0)T的方向，梯度减少最快，也就是更加容易找到函数的最小值。

（2）为什么计算损失函数最优值采用梯度下降算法而不是直接对损失函数求导数等于0时的最优解？

答：多维函数偏导为0并非是局部极值，偏导为零是该点为极值的必要不充分条件，所以极值为0不一定是极值，你求偏导为0是没有用的，求出来也未必是极值点。不管是直接令偏导等于0还是使用梯度下降，都无法解决损失函数为非凸函数时陷入局部最优的问题。之所以使用梯度下降而不直接令偏导等于0，是因为神经网络的损失函数大多没有解析解，就是说你无法显式地表示函数的偏导，所以只能通过数值求解的方法迭代地找到最优解(或者局部最优解)。

（3）如何判断梯度下降算法是否正确工作？

答：可以绘制一个α——J(θ)曲线图，通过图像判断是否正确工作。

对于一个足够小的学习率α，每次迭代后损失函数J(θ)都会下降

如果α过小，梯度下降的收敛速度很慢

如果α太大，损失函数可能不会在每次迭代都下降，甚至可能不收敛

选择使得J(θ)曲线快速下降的α值

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
梯度下降算法主要通过哪两个控制因子实现最优参数选择？这两个因子分别起到什么作用？为什么计算损失函数最优值采用梯度下降算法而不是直接对损失函数求导数等于0时的最优解？如何判断梯度下降算法是否正确工作？

梯度下降算法主要通过哪两个控制因子实现最优参数选择？这两个因子分别起到什么作用？为什么计算损失函数最优值采用梯度下降算法而不是直接对损失函数求导数等于0时的最优解？如何判断梯度下降算法是否正确工作？梯度下降算法有两个重要的控制因子：一个是步长，由学习率控制；一个是方向，由梯度指定。1.在梯度下降算法中，步长决定了每一次迭代过程中，会往梯度下降的方向移动的距离。试想一下，如果步长很大，算法会在局部最优点附近来回跳动，不会收敛（如下图）；但如果步长太短，算法每步的移动距离很短，就会导致算法收敛速度很慢。2
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

平杨猪 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。