引用自:Why LSTMs Stop Your Gradients From Vanishing: A View from the Backwards Pass
最近在学习邱锡鹏老师的《神经网络与深度学习》,看到了循环神经网络。书中写道:
为什么隐藏层系数的梯度没有消失?这篇博客写的非常清楚,故记录一下:
W
R
W_R
WR的梯度是影响不到的,但是他的梯度更多地来自于当前时间步的几个相邻状态(公式中体现的是累加)。
而对于
h
k
h_k
hk而言,若
k
<
<
t
k<<t
k<<t,那么
h
k
h_k
hk是更新不动。
引用自:
Why LSTMs Stop Your Gradients From Vanishing: A View from the Backwards Pass
邱锡鹏《神经网络与深度学习》