梯度下降(二)--机器学习


在这里插入图片描述

1.提出问题

α \alpha α ∂ ∂ θ j J ( θ 0 , θ 1 ) \frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1) θjJ(θ0,θ1)起到的作用以及更新函数为什么是有效的?

2.简化

我们再次将 J ( θ 0 , θ 1 ) J(\theta_0,\theta_1) J(θ0,θ1)简化为 ( J ( θ 1 ) ) (J(\theta_1)) (J(θ1)),由之前的知识我们可以得到, J ( θ 1 ) J(\theta_1) J(θ1)函数是一个二次函数。如下图。

3.导数部分的工作原理

θ 1 : = θ 1 − α ∂ ∂ θ 1 J ( θ 1 ) \theta_1:=\theta_1-\alpha \frac{\partial}{\partial \theta_1}J(\theta_1) θ1:=θ1αθ1J(θ1)
因为 α \alpha α是正数,在右边的时候导数是大于零的,所以 θ 1 \theta_1 θ1是在变小的;同理,在左边的时候导数是小于零的,所以 θ 1 \theta_1 θ1是在变大的;即 θ 1 \theta_1 θ1的变化方向是对的,这就是 θ 1 \theta_1 θ1起到的作用。
在这里插入图片描述

4.学习因子 α \alpha α起到的作用

4.1决定收敛的快慢

如果 α \alpha α太小,那么梯度下降的就比较慢,如果 α \alpha α太大,梯度下降可能会越过最小点,甚至发散开来
在这里插入图片描述

4.2在局部最优点的情况

在局部最优点时, J ( θ 1 ) = 0 , θ 1 J(\theta_1)=0,\theta_1 J(θ1)=0θ1更新后和原来的值一样,和我们期望的结果一致。
在这里插入图片描述

4.3梯度下降能聚焦到局部最优解,即使 α \alpha α不变

因为随着慢慢的靠近最低点, J ( θ 1 ) J(\theta_1) J(θ1)会慢慢的变小,收敛速度会自己慢慢地变慢。如下图所示,每一次更加接近最优解, J ( θ 1 ) J(\theta_1) J(θ1)会变小,收敛的速度会变慢
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值