LSTM(Long Short Term Memory)长短期记忆单元模型:
首先介绍一下RNN模型。之前比较熟悉的是CNN网络,但是CNN所处理的对象很大程度上是图像,但是针对自然语言处理的理解,不止对当前的输入有关,还需要记忆和关联之前输入的一些内容。打个比方:一轮明月挂在
天空中。
我们可以很明确的知道空格处是天空,但是对于下面这就话,我是一名中国人,所以可以很流畅的进行中文交流。这里的空格处就需要我们记忆上文的语义才能完成。一个典型的RNN模型如下图所示:
LSTM模型是RNN模型的一种,它可以完善RNN模型的一个功能,就是当我们输入的序列或者文本过于长的情况下,能够就有较长的记忆,也就是说Long-Term Dependencies长期依赖性。
一个LSTM由一长串的gate门构成。分别是input gate(current cell state),forget gate(0:忘记之前的所有;1:通过之前的所有),output (选择输出),New memory cell(得到新的记忆单元)。基本的模型如下:
特此声明,文中所用图片来自这篇博文,希望大家参考:http://colah.github.io/posts/2015-08-Understanding-LSTMs/