1.提出问题
α \alpha α和 ∂ ∂ θ j J ( θ 0 , θ 1 ) \frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1) ∂θj∂J(θ0,θ1)起到的作用以及更新函数为什么是有效的?
2.简化
我们再次将 J ( θ 0 , θ 1 ) J(\theta_0,\theta_1) J(θ0,θ1)简化为 ( J ( θ 1 ) ) (J(\theta_1)) (J(θ1)),由之前的知识我们可以得到, J ( θ 1 ) J(\theta_1) J(θ1)函数是一个二次函数。如下图。
3.导数部分的工作原理
θ
1
:
=
θ
1
−
α
∂
∂
θ
1
J
(
θ
1
)
\theta_1:=\theta_1-\alpha \frac{\partial}{\partial \theta_1}J(\theta_1)
θ1:=θ1−α∂θ1∂J(θ1)
因为
α
\alpha
α是正数,在右边的时候导数是大于零的,所以
θ
1
\theta_1
θ1是在变小的;同理,在左边的时候导数是小于零的,所以
θ
1
\theta_1
θ1是在变大的;即
θ
1
\theta_1
θ1的变化方向是对的,这就是
θ
1
\theta_1
θ1起到的作用。
4.学习因子 α \alpha α起到的作用
4.1决定收敛的快慢
如果
α
\alpha
α太小,那么梯度下降的就比较慢,如果
α
\alpha
α太大,梯度下降可能会越过最小点,甚至发散开来
4.2在局部最优点的情况
在局部最优点时,
J
(
θ
1
)
=
0
,
θ
1
J(\theta_1)=0,\theta_1
J(θ1)=0,θ1更新后和原来的值一样,和我们期望的结果一致。
4.3梯度下降能聚焦到局部最优解,即使 α \alpha α不变
因为随着慢慢的靠近最低点,
J
(
θ
1
)
J(\theta_1)
J(θ1)会慢慢的变小,收敛速度会自己慢慢地变慢。如下图所示,每一次更加接近最优解,
J
(
θ
1
)
J(\theta_1)
J(θ1)会变小,收敛的速度会变慢