理解LSTM网络+Python实现


前言

参照网上资料对LSTM的理解和总结,如文章内容有错误和不足之处,烦请读者联系作者修改。


一、传统RNN

循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网络,可以解决训练样本输入是连续且长短不一的序列的问题,比如基于时间序列的问题。

基础的神经网络只在层与层之间建立了权连接,RNN最大的不同之处就是在层与层之间的神经元之间也建立了权连接。

RNN神经网络的结构如下:
在这里插入图片描述


二、RNN带来的缺陷

1、梯度爆炸和梯度弥散

虽然在某些情况下,RNN神经网络的参数比卷积网络要少很多。但是,随着循环次数的叠加,很容易出现梯度爆炸或梯度弥散。而导致这个缺陷产生的主要原因是,传统RNN在计算梯度时,其公式中存在一个 ω h h ω_{hh} ωhh 的k次方。

由于其梯度求解公式中有 ω h h ω_{hh} ωhh 的k次方的存在,所以会出现下面的极限情况:
ω h h > 1 ω_{hh}>1 ωhh>1 ω h h k ω_{hh}^k ωhhk 接近于 ∞ ∞ ——出现梯度爆炸
ω h h < 1 ω_{hh}<1 ωhh<1 ω h h k ω_{hh}^k ωhhk 接近于 0 0 0 ——出现梯度弥散

2、memory记忆不足

虽然RNN使用了一个全局的memory去记录全局的语境信息,但实际上,memory只能记住很短的全局信息,随着迭代次数的增加,memory会逐渐遗忘前面的语境信息。


三、LSTM理解

长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度爆炸或梯度弥散问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。

1、LSTM原理

LSTM 结构如下图,不同于单一神经网络层,这里是有四个,以一种非常特殊的方式进行交互。
在这里插入图片描述
LSTM 的关键就是细胞状态,水平线在图上方贯穿运行。
细胞状态类似于传送带。直接在整个链上运行,只有一些少量的线性交互。信息在上面流传保持不变会很容易。
在这里插入图片描述
若只有上面的那条水平线是没办法实现添加或者删除信息的。LSTM网络在传统RNN网络中设置了三道闸门——输入门(Input Gate)、遗忘门(Forget Gate)、输出门(Output Gate)用于控制不同对象的输出量,达到选择性记忆的目的。

2、LSTM公式

前向传播

遗忘门:
f t = δ ( W f ⋅ [ h t − 1 , x t ] + b f ) f_t=δ(W_f·[h_{t-1},x_t]+b_f) ft=δ(Wf[ht1,xt]+bf)

遗忘门决定上一时刻细胞状态 C t − 1 C_{t-1} Ct1 中的多少信息(由 f t f_t ft

  • 18
    点赞
  • 168
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值