自学神经网络系列—— 11 门控循环神经网络 GRU和LSTM

最新推荐文章于 2024-04-03 09:38:05 发布

ML_python_get√

最新推荐文章于 2024-04-03 09:38:05 发布

阅读量1.2k

点赞数 2

分类专栏：机器学习笔记文章标签： lstm 神经网络 rnn

本文链接：https://blog.csdn.net/weixin_51499396/article/details/123005312

版权

22 篇文章 2 订阅

订阅专栏

为了进一步改善循环神经网络的梯度消失和梯度爆炸问题，基于门控的循环神经网络，利用门控单元控制隐藏状态随时间的积累程度。门控单元通过捕捉过去信息，可以对长序列进行建模。在门控循环神经网路中使用最多的就是GRU和LSTM。

1 GRU

门控循环单元GRU(Gate Recurrent Unit)在普通循环神经网络的基础上引入了重置门和更新门，对隐藏状态进行调整。GRU在循环神经网络的每个时刻上对前馈神经网络的隐藏层进行修改。

在这里插入图片描述

图1 门控循环单元GRU（《动手学深度学习》李沐）

重置门为 $R_t$ ，更新门 $Z_t$ 为（0，1）之间的数，通过学习得到
$R_t = \sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_r)\\ Z_t = \sigma(X_tW_{xz}+H_{t-1}W_{hz}+b_z)$
隐藏状态为上一层隐藏状态和候选隐藏状态移动平均
$H_t = Z_t\odot H_{t-1}+(1-Z_t)\odot \tilde H_t$
更新门 $Z_t$ 决定了对过去隐藏状态的更新程度
候选隐藏状态根据当前信息X_t、过去信息计算
候选隐藏状态
$\tilde H_t = tanh(X_tWxh+(R_t\odot H_{t-1})W_{hh}+b_h)$
重置门决定了是否重置信息积累，局部是否发生显著变化，短期关系
更新门决定了是否对过去隐藏状态进行更新，长期依赖关系

长短期记忆单元LSTM(Long short-term memory)在普通循环神经网络的基础上引入了输入门、输出门和遗忘门。同样是对隐藏状态进行调整，在循环神经网络的每个时刻上对前馈神经网络的隐藏层进行修改。
在这里插入图片描述

图2 长短期记忆单元LSTM（《动手学深度学习》李沐）

输入门 $I_t$ 、输出门 $O_t$ 、遗忘门 $F_t$ 为（0，1）之间的数，通过学习得到
$I_t = \sigma(X_tW_{xi}+H_{t-1}W_{hi}+b_i) \\ O_t = \sigma(X_tW_{xo}+H_{t-1}W_{ho}+b_o) \\ F_t = \sigma(X_tW_{xf}+H_{t-1}W_{hf}+b_f)$
隐藏状态由输出门控制
$H_t = O_t\odot tanh(C_t)$
$C_t$ 为记忆单元，类似GRU中的隐藏状态，代表当前信息累积大小，取决于上一时刻隐藏层的信息累积（上一时刻记忆单元）×遗忘程度(遗忘门控制)和当前信息(当前候选记忆单元)×更新程度（输出门控制）
$C_t = F_t\odot C_{t-1}+I_t \odot \tilde C_t$
候选记忆单元类似GRU中的候选隐藏状态
$\tilde C_t = tanh(X_tW_{xc}+H_{t-1}W_{hc}+b_c)$
LSTM 需要额外一个记忆单元序列 ${C_t\}$
输入门 $I_t$ ：控制当前信息是否输入动态系统，更新过去状态
输出门 $O_t$ ：控制记忆单元输出大小
遗忘门 $F_t$ ：控制过去信息累积需要丢弃多少