LSTM原理与结构

LSTM - 长短期记忆网络,特殊的RNN,能够学习长依赖关系。结构原理也十分的简单易懂。

 先来看看RNN和LSTM长啥样先,不急~~

标准的RNN长这个样:

在这里插入图片描述

而标准的LSTM长这个样:

在这里插入图片描述

!!!!

在RNN中一个Cell输出的ht和Ct是相同的,而LSTM的一个cell输出的ht和Ct是不同的

下面对图里的一些组件说明:依次是神经网络层、向量点积/向量乘法…
在这里插入图片描述
 我们称下图中的一个绿色框为一个cell(细胞),那么图中最上面那条黑线,是细胞状态(可以理解为一些有用的信息)的传输通道,然后经过这条通道上的红色圆圈,相当于对上一步的细胞状态进行加个整改,然后输出这一步的细胞状态。
在这里插入图片描述
下面解剖一下细胞里的结构以及工作机制(4个部分):

1.遗忘门

 首先,它将上一步的输出ht-1和这一步的输入xt进行合并,然后经过一个全连接层和sigmoid激活函数层得到ft(因为使用来sigmoid,所以ft的输出在0-1之间)。然后ft和上一步的细胞状态Ct-1相乘,其作用就相当于我们从上一步的状态中丢弃什么信息,保留什么信息。就相当于商品价格乘上折扣,打了个折一样呗。
在这里插入图片描述

2.输入门

 首先,也是将上一步的输出ht-1和这一步的输入xt进行合并,然后经过一个全连接层和sigmoid激活函数层得到it(因为使用来sigmoid,所以ft的输出在0-1之间).
然后也是将上一步的输出ht-1和这一步的输入xt进行合并,经过一个全连接层和tanh激活函数层得到Ct(顶上有波浪线),它代表的是备选用来更新的内容,将它与it相乘,就相当于筛选出哪些部分需要被更新。这样我们得到了新的信息。。
在这里插入图片描述

 将这个新的信息与遗忘门的输出相加,作用就相当于用这里的新的信息去替换掉遗忘丢弃了的旧信息,这样我们就得到了当前的新的细胞状态Ct。
在这里插入图片描述

3.输出门

 细胞的输出,就是将细胞状态进行进一步的过滤提取信息,以决定我们要输出细胞状态态中的哪些部分。
首先是将上一步的输出ht-1和这一步的输入xt进行合并传入sigmoid激活函数层,然后将其与通过了tanh激活函数层的新的细胞状态相乘,就得到了该细胞的输出ht。
在这里插入图片描述


自:Understanding LSTM Networks

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

#苦行僧

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值