参考文章
1.LSTM论文翻译-《Understanding LSTM Networks》
链接:
https://blog.csdn.net/juanjuan1314/article/details/52020607
RNNs
长序依赖问题
RNN被选择的一个重要原因是它可以连接前面的信息为当前节点所用,就像视频前面的帧可以输入到当前环节来预测或者理解当前帧。如果RNN能真正做到这样,那它的确非常有用了,但是它真的能吗?实际上,这要视情况而定。
有时,我们只需要就近的一些信息就可以完成当前任务。例如,一个语言模型想要根据前面的词预测最后一个词,如要预测“the clouds are in the sky.”的最后一个词,我们不需要更多的上下文语境就能知道最后一个词是sky。在这个例子中,要用到的语境很简单,RNN可以很好的里面句子前面的词信息得到正确的答案。
但是,也有很多句子需要更多语境,如“I grew up in France. … I speak fluent French.”从临近的语境中可以知道,最后一个词应该是一种语言,但是要知道是哪种语言,必须要前面的“France”,要再往前推。需要的信息和当前点可能隔很远。
不幸的是,随着距离的增加,RNN并不能学习到有用的信息。
理论上,RNNs完全可以掌控“长句依赖”,我们可以人为的选择好的参数嘛。但实践证明,RNN基本不可能学习很长的句子。Hochreiter和Begnio对此有很深的研究,并且找到了根本原因。
而幸运的是,这个问题LSTM不会有。
后续见link