深度学习 通俗易懂LSTM|RNN的变种结构 | LSTM长短期记忆网络(4.6)| 中

最近在恶补深度学习基础知识,以下为根据公众号“ 阿力阿哩哩”的《通俗易懂LSTM|RNN的变种结构 | LSTM长短期记忆网络》而总结的内容。可以结合作者在哔哩大学的视频。
在这里插入图片描述

4.6 RNN与RNN的变种结构

这一节,笔者将给大家介绍深度学习的RNN循环神经网络(Recurrent Neural Networks)与RNN结构变种LSTM长短期记忆网络(Long-Short Term Memory Networks)和GRU门控循环单元(Gated Recurrent Neural Network)。

4.6.4 LSTM长短期记忆网络

笔者在4.6.3提过RNN结构共享1组(U, W, b),这是RNN结构最重要的特性,不过也是由于这个特性,才导致了LSTM长短期记忆网络的诞生。

因为 在(U, W, b)不变的情况下,梯度在反向传播过程中,不断连乘,数值不是越来越大就是越来越小,这样就出现了梯度爆炸或梯度消失的情况,所以往往用RNN去训练模型得不到预期的效果。

1. LSTM原理

由上文可知,RNN结构之所以出现梯度爆炸或者梯度消失,最本质的原因是因为梯度在传递过程中存在极大数量的连乘,为此有人提出了LSTM模型,它可以对有价值的信息进行记忆,放弃冗余记忆,从而减小学习难度。

与RNN相比,LSTM的神经元还是基于输入X和上一级的隐藏层输出h来计算,只不过内部结构变了,也就是神经元的运算公式变了,而外部结构并没有任何变化,因此上面提及的RNN各种结构都能用LSTM来替换。

相对于RNN,LSTM的神经元加入了输入门i、遗忘门f、输出门o 和内部记忆单元c。笔者这里先给上一个整体的LSTM结构图如图 4.48所示,之后笔者再对它内部结构的运算逻辑进行详细的解释。

在这里插入图片描述
遗忘门f:控制输入X和上一层隐藏层输出h被遗忘的程度大小,如图 4.49所示。
在这里插入图片描述

遗忘门公式如式(4.43):
在这里插入图片描述
遗忘门公式如式(4.44):在这里插入图片描述
内部记忆单元 c:
在这里插入图片描述
内部记忆单元公式如式(4.45)~(4.46):
在这里插入图片描述
输出门 o:控制输入X和当前输出取决于当前记忆单元的程度大小,如图 4.52所示。

在这里插入图片描述

输出门公式如式(4.47)~(4.48):
在这里插入图片描述
其中σ一般选择Sigmoid作为激励函数,主要是起到门控作用。因为Sigmoid函数的输出为0~1, 当输出接近0或1时,符合物理意义上的关与开。tanh函数作为生成候选记忆C的选项,因为其输出为-1~1,符合大多数场景下的0中心的特征分布,且梯度(求导)在接近0处,收敛速度比sigmoid函数要快,这也是选择它的另外一个原因。不过LSTM的激励函数也不是一成不变的,大家可以根据自己的需求去更改,只要能更好地解决自己的问题即可。

对于一个训练好的LSTM模型,我们要知道它的每一个门(遗忘门、输出门和输入门)都有各自的(U, W, b),上述公式也有所体现,这是在训练过程中得到的。而且当输入的序列不存在有用信息时,遗忘门f的值就会接近1,那么输入门i的值接近0,这样过去有用的信息就会被保存。当输入的序列存在重要信息时,遗忘门f的值就会接近0,那么输入门i的值接近1,此时LSTM模型遗忘过去的记忆,记录重要记忆。

因此我们可以看出由遗忘门、输出门、输入门和内部记忆单元共同控制LSTM输出h的设计,使得整个网络更好地把握序列信息之间的关系。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值