梯度下降（二）--机器学习

最新推荐文章于 2020-12-21 04:13:11 发布

三省少年

最新推荐文章于 2020-12-21 04:13:11 发布

阅读量163

点赞数

分类专栏：机器学习文章标签：梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xd15010130025/article/details/88756945

版权

机器学习专栏收录该内容

36 篇文章 5 订阅

订阅专栏

文章目录

1.提出问题
2.简化
3.导数部分的工作原理
4.学习因子$\alpha$起到的作用

在这里插入图片描述

1.提出问题

$\alpha$ 和 $\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$ 起到的作用以及更新函数为什么是有效的？

2.简化

我们再次将 $J(\theta_0,\theta_1)$ 简化为 $(J(\theta_1))$ ,由之前的知识我们可以得到， $J(\theta_1)$ 函数是一个二次函数。如下图。

3.导数部分的工作原理

$\theta_1:=\theta_1-\alpha \frac{\partial}{\partial \theta_1}J(\theta_1)$
因为 $\alpha$ 是正数，在右边的时候导数是大于零的，所以 $\theta_1$ 是在变小的；同理，在左边的时候导数是小于零的，所以 $\theta_1$ 是在变大的；即 $\theta_1$ 的变化方向是对的，这就是 $\theta_1$ 起到的作用。
在这里插入图片描述

4.学习因子 $\alpha$ 起到的作用

4.1决定收敛的快慢

如果 $\alpha$ 太小，那么梯度下降的就比较慢，如果 $\alpha$ 太大，梯度下降可能会越过最小点，甚至发散开来
在这里插入图片描述

4.2在局部最优点的情况

在局部最优点时， $J(\theta_1)=0，\theta_1$ 更新后和原来的值一样,和我们期望的结果一致。
在这里插入图片描述

4.3梯度下降能聚焦到局部最优解，即使 $\alpha$ 不变

因为随着慢慢的靠近最低点， $J(\theta_1)$ 会慢慢的变小，收敛速度会自己慢慢地变慢。如下图所示，每一次更加接近最优解， $J(\theta_1)$ 会变小，收敛的速度会变慢
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降（二）--机器学习

文章目录1.提出问题2.简化3.导数部分的工作原理4.学习因子$\alpha$起到的作用4.1决定收敛的快慢4.2在局部最优点的情况4.3梯度下降能聚焦到局部最优解，即使$\alpha$不变1.提出问题α\alphaα和∂∂θjJ(θ0,θ1)\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)∂θj∂J(θ0,θ1)起到的作用...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。