- 为什么用LSTM?
We use RNN when sequence data is important : https://blog.csdn.net/weixin_43909872/article/details/85567106
RNN的问题:
a. RNN 一般使用tanh作为激活函数,从下面的tanh和tanh导数函数图像可以看到他的梯度和sigmoid一样会下降得非常快,而RNN网络又会循环使用W计算,在BPTT(Back Propagation through time)的时候很容易造成梯度消失
b.当W大于一的时候,因为W要被反复使用,相比于普通神经网络,RNN又更容易发生梯度爆炸的情况
关于gradient Vanishing and Exploding 可以看这篇文章: https://mp.csdn.net/mdeditor/85082198#
由于梯度消失或者爆炸的缺陷,RNN在时序比较长的案例里会表现比较差,比如文本分析的时候如果需要的信息在文章很前面的位置,那么RNN就没法处理——于是LSTM出现了
- 结合一个简单的例子分析LSTM的原理
关于LSTM的介绍很多,就不赘述了,下面截取两张图作为一个参考
LSTM的网络结构