循环神经网络笔记 (Stanford CS231n)
循环神经网络与卷积神经网络区别:
卷积神经网络需要固定长度的输入和输出,循环神经网络可以是不定长的输入。
卷积神经网络就是下图的一对一实例图,其余几个都是循环神经网络的示意图。
one to many :输入一个图片,输出一句描述图片的话。
many to one :输入一句话,判断是正面还是负面情绪。
many to many :有个延时的,譬如机器翻译。
many to many :输入一个视频,判断每帧分类。
RNN的计算公式:
在一层RNN中不同时间序列中激励函数和权值参数都一致。
RNN也可以是多层RNN,其网络是整个一模型一起训练的。
RNN存在着梯度爆炸和梯度消散的问题。梯度爆炸可以采用梯度裁剪的方式避免,譬如梯度大于5就强制梯度等于5。梯度消散的问题可以采用LSTM的方式抑制。
LSTM这个网络模型相比于RNN解决了梯度消散问题,同时保留了长时序列的相关性,譬如I am chinese,i speak chinese。最后一个词需要和前一个小分句的最后一个单词相关。