深度/机器学习基础知识要点：RNN、LSTM、GRU

最新推荐文章于 2024-04-11 10:42:40 发布

szZack

最新推荐文章于 2024-04-11 10:42:40 发布

阅读量1.4k

点赞数 1

分类专栏：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zengNLP/article/details/104135185

版权

人工智能同时被 2 个专栏收录

110 篇文章 9 订阅

订阅专栏

94 篇文章 10 订阅

订阅专栏

RNN(循环神经网络)

RNN示意图

$x$ 是一个向量，它表示输入层的值； $s$ 是一个向量，它表示隐藏层的值； $U$ 是输入层到隐藏层的权重矩阵； $o$ 也是一个向量，它表示输出层的值； $V$ 是隐藏层到输出层的权重矩阵。循环神经网络的隐藏层的值 $s$ 不仅仅取决于当前这次的输入 $x$ ，还取决于上一次隐藏层的值 $s$ 。权重矩阵 $W$ 就是隐藏层上一次的值作为这一次的输入的权重。

输出值 ${o}_{t}$ ，是受前面历次输入值 ${x}_{t}、{x}_{t-1}、{x}_{t-2}$ 、…影响的，这就是为什么循环神经网络可以往前看任意多个输入值的原因。
计算公式：
双向循环神经网络
- 示意图
- 计算公式：

LSTM（长短时记忆网络）

单元状态(cell state)

新增加的状态c，称为单元状态(cell state)。我们把上图按照时间维度展开：

在t时刻，LSTM的输入有三个：当前时刻网络的输入值 $x_t$ 、上一时刻LSTM的输出值 $h_{t-1}$ 、以及上一时刻的单元状态 $c_{t-1}$ ；
LSTM的输出有两个：当前时刻LSTM输出值 $h_{t}$ 、和当前时刻的单元状态 $c_{t}$ 。

用到了门（gate）的概念。门实际上就是一层全连接层，它的输入是一个向量，输出是一个0到1之间的实数向量。

LSTM用两个门来控制单元状态c的内容，一个是遗忘门（forget gate），它决定了上一时刻的单元状态 ${c}_{t-1}$ 有多少保留到当前时刻 ${c}_{t}$ ；另一个是输入门（input gate），它决定了当前时刻网络的输入 ${x}_{t}$ 有多少保存到单元状态 ${c}_{t}$ 。LSTM用输出门（output gate）来控制单元状态 ${c}_{t}$ 有多少输出到LSTM的当前输出值 ${h}_{t}$ 。

LSTM需要学习的参数共有8组，分别是：遗忘门的权重矩阵 ${W}_{f}$ 和偏置项 ${b}_{f}$ 、输入门的权重矩阵 ${W}_{i}$ 和偏置项 ${b}_{i}$ 、输出门的权重矩阵 ${W}_{o}$ 和偏置项 ${b}_{o}$ ，以及计算单元状态的权重矩阵 ${W}_{c}$ 和偏置项 ${b}_{c}$ 。

LSTM单元结构：
- 遗忘门：
- 输入门：
- 用于描述当前输入的单元状态，它是根据上一次的输出和本次输入来计算的：
- 当前时刻的单元状态
- 输出门
- LSTM最终的输出

GRU

GRU 是LSTM 的一个变体，GRU 保持了 LSTM 的效果同时又使结构更加简单。

GRU 只剩下两个门，即更新门和重置门。

更新门
用于控制前一时刻的状态信息被代入到当前状态的程度，更新门的值越大说明前一时刻的状态信息带入越多。
重置门
用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。
GUR单元结构

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

szZack 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。