接上篇,当训练模型表现差时,还可以改变学习率。
之前讲过的adagrad算法
w2在竖直方向上,因为梯度比较大,比较陡峭,所以就选用比较小的学习率
w1在横方向上,因为梯度比较小,比较平缓,所以就选用比较大的学习率。
但是实际情况比这复杂很多,
当遇到上图这种情况时,同一个方向,不同地方的梯度变化也是不一样的,也需要学习率快速变化。这个时候就需要RmsProp。
RmsProp算法
用学习率 η除以σ,σ0就是第一次gradient的值g0。第二次,算出一个新的gradien g1,此时,新的σ1就是原来的σ0的平方乘以α,再加上(1-α)乘以g1的平方。最后开根方。α可以自己调整。当α较小时,1-α更大,表示更倾向于相信新的梯度,反之同理。
通常卡主的位置