这篇文章,从直觉的角度讲解了下,我觉得比较容易理解。
the LSTM architecture is resistant to exploding and vanishing gradients, although mathematically both phenomena are still possible.
LSTM这个结构其实并没有彻底解决梯度的消失或爆炸问题,只是有所缓解。因为除了cell单元的更新是改为加法外,其他的路径上仍然是做乘法,所以在其他路径上仍然存在梯度的消失或爆炸问题。