转载地址:Written Memories: Understanding, Deriving and Extending the LSTM
这篇文章前半段讲得挺好的,尤其是梯度消失那一块,并没有从BPTT的角度解释;而是从状态变化近端远端相互影响的角度。文章后段充斥着各种引用,文字个人感觉不够精炼~~,非有精力和有时间的人不能细读。
这篇文章的简化易懂版:https://medium.com/@godricglow/a-deeper-understanding-of-nnets-part-3-lstm-and-gru-e557468acb04