LSTM理解

要点:
1.LSTM 即 Long Short-Term Memory 长短期记忆网络, 是一种特殊的RNN循环神经网络。
带循环的递归神经网络

循环神经网络的展开式
2.LSTM解决了RNN存在的长期依赖问题而专门设计出来的。
RNN的问题在于其中重复神经网络模块的链式形式只有一个非常简单的结构,如一个tanh层。这就使得RNN在以前信息距离现在信息很近的时候,可以利用以前的信息。但当以前的信息距离现在很远的时候,RNN就无法利用信息。
RNN可以利用近距离的以前信息
RNN无法利用远距离的以前信息
3.LSTM是如何解决远距离信息无法利用的问题的?
与标准RNN中的重复模块的单层神经网络不同,LSTM有四层以特殊方式进行交互。
标准RNN中的重复模块的单层神经网络
LSTM中的重复模块包含的四层交互神经网络层
LSTM的四层交互神经网络如何发挥作用的?

LSTM结构中图的顶部水平线表示细胞状态,类似于传送带,细胞的状态在整个链上传递。
在这里插入图片描述

细胞状态可以被LSTM改变,如删除或添加。这个能力是由Gate门结构实现的。门结构是由Sigmoid神经网络层和一个点乘法运算组成,可以自主地让信息通过。
Gate门结构
Sigmoid神经网络层输出0和1之间的数字,这个数字描述每个组件有多少信息可以通过, 0表示不通过任何信息,1表示全部通过。LSTM有三个门,用于保护和控制细胞的状态。
以语言模型为例,试图根据以前的语料来预测下一个单词。
LSTM执行过程:
第一步:丢弃信息
Forget Gate “忘记门”是一层Sigmoid函数,它接收上一层的输出h t − 1 _{t-1} t1和当前输入x t _t t,并为上一个状态C t − 1 _{t-1} t1中每个数字输出0和1之间的数字。1代表完全保留,0代表彻底删除。
Forget Gate
第二步:存储信息
Input Gate"输入门"是一层Sigmoid函数,它决定了更新的值。还有一个tanh层创建候选向量C t _t t,加入细胞状态中。
Input Gate
在这里插入图片描述
结合两个向量来更新C t _t t.

第三步:输出信息
Output Gate 输出门是一个Sigmoid函数,它接收上一层的输出h t − 1 _{t-1} t1和当前输入x t _t t得到o t _t t。然后用一层tanh处理更新过的C t _t t,并与o t _t t相乘后作为结果输出。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值