一、梯度爆炸/消失
1.产生原因:
RNN在反向传播求梯度时,最大的问题就是ht对hi求导时,会有多个tanh’ * Wh连乘,同时tanh函数的导数在0到1之间,如果 Wh在0到1之间,早期的隐藏状态距当前隐藏状态较远,多个tanh’ *Wh连乘会趋于0,此时会造成梯度消失;而当Wh很大时,早期的隐藏状态距当前隐藏状态较远,多个tanh’ *Wh连乘会趋于无穷,此时会造成梯度爆炸。
求梯度公式如下图:来自这里
上面这个公式有点问题,xi -> x k+1,h i-1 -> hk
上面公式还是有问题,h1 -> hi
上述f就是tanh,由于f
RNN\LSTM\GRU学习总结
最新推荐文章于 2023-04-07 16:57:27 发布