RNN和LSTM详解

LouisC7

已于 2022-03-29 11:42:48 修改

阅读量1.7k

点赞数

分类专栏：机器学习文章标签： python 算法机器学习深度学习神经网络

于 2022-03-26 02:01:18 首次发布

本文链接：https://blog.csdn.net/weixin_44507034/article/details/123720083

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1. Recurrent Neural Networks(RNN)

1.1 模型

在这里插入图片描述
$h_t = tanh[W_{hx}X_t + W_{hh}h_{t-1}+b_h]$
$z_t=f(W_{hy}h_t+b_z)$

$\frac{exp(2v)-1}{exp(2v)+1}$
$W_{hh},W_{xh},W_{hy}$ 都是可训练的权重矩阵。
$b_h,b_z$ 都是可训练的偏差向量。
$X_t$ 和 $z_t$ 分别是时间 $t$ 的输入和输出。

1.2 损失函数

$L_\tau(\theta) = \sum_{t\in\tau}L(y_t,z_t)$
这里的 $\tau$ 是输出序列。

1.3 不同形态的RNN

在这里插入图片描述
应用场景：

One-to-many: image captioning;
Many-to-one: text sentiment classification;
Many-to-many: machine translation.

1.4 多层RNN

回想一下单层RNN：
$h_t = tanh[W_{hx}X_t + W_{hh}h_{t-1}+b_h]=tanh\begin{bmatrix}W\begin{pmatrix}X_t\\h_{t-1}\\1\end{pmatrix}\end{bmatrix}$

多层RNN是单层RNN堆叠而来的：
在这里插入图片描述

$h_t^l =tanh\begin{bmatrix}W\begin{pmatrix}h_t^{l-1}\\h_{t-1}\\1\end{pmatrix}\end{bmatrix}$

高层的隐含状态 $h_t^l$ 由老的状态 $h_{t-1}^l$ 和低层的隐含状态 $h_t^(l-1)$ 决定。

1.5 RNN存在的问题

普通RNN的一个显著缺点是，当序列长度很大时，RNN难以捕获序列数据中的长依赖项。这有时是梯度消失/爆炸造成的。
在下面的例子中，计算 $\frac{\partial L_\tau}{\partial h_1}$ 时，根据链式求导法则，我们需要计算 $\prod_{t=1}^3(\frac{\partial h_{t+1}}{\partial h_t})$ 。
在这里插入图片描述
如果序列很长，这个乘积将是许多雅可比矩阵的乘积，这通常会得到指数大或指数小的奇异值。

2. LSTM/GRU

2.1 概述

先回顾一下单层RNN：
$h_t = tanh[W_{hx}X_t + W_{hh}h_{t-1}+b_h]=tanh\begin{bmatrix}W\begin{pmatrix}X_t\\h_{t-1}\\1\end{pmatrix}\end{bmatrix}$

对比LSTM：
$\begin{pmatrix}i_t\\f_t\\o_t\\c_t\end{pmatrix}=\begin{pmatrix}\sigma\\\sigma\\\sigma\\tanh\end{pmatrix}W\begin{pmatrix}h_{t-1}\\x_t\\1\end{pmatrix}$

其中， $\sigma$ 是sigmoid函数。

LSTM可以删除或者添加信息到状态，并被叫“门”的结构（包括遗忘门、输入门、输出门）所限制。
在这里插入图片描述

2.2 遗忘门（Forget gate）

在这里插入图片描述

功能：保存旧的信息
$f_t =\sigma\begin{bmatrix}W_f\begin{pmatrix}X_t\\h_{t-1}\\1\end{pmatrix}\end{bmatrix}$

理想情况下，遗忘门的输出具有接近二进制的值，例如，当 $f_t$ 的输出接近1时可能表明输入序列中存在某个特征。

2.3 输入门（Input gate）

在这里插入图片描述
功能：更新记忆

$i_t =\sigma\begin{bmatrix}W_i\begin{pmatrix}X_t\\h_{t-1}\\1\end{pmatrix}\end{bmatrix}$
$\bar c_t=tanh\begin{bmatrix}W_c\begin{pmatrix}X_t\\h_{t-1}\\1\end{pmatrix}\end{bmatrix}$

2.4 输入门和遗忘门的合并

在这里插入图片描述
$c_t=f_t\odot c_{t-1}+i_t \odot \bar c_t$

$\odot$ 表示两个矩阵对应位置元素进行乘积

2.4 输出门（Output gate）

在这里插入图片描述
功能：决定有多少记忆 $c_t$ 影响输出 $h_t$

$o_t =\sigma\begin{bmatrix}W_o\begin{pmatrix}X_t\\h_{t-1}\\1\end{pmatrix}\end{bmatrix}$

$h_t=o_t \odot tanh(c_t)$

LouisC7

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RNN和LSTM详解

Recurrent Neural Networks(RNN)1. 模型ht=tanh[WhxXt+Whhht−1+bh]h_t = tanh[W_{hx}X_t + W_{hh}h_{t-1}+b_h]ht=tanh[WhxXt+Whhht−1+bh]zt=f(Whyht+bz)z_t=f(W_{hy}h_t+b_z)zt=f(Whyht+bz)tanh(v)=exp(2v)−1exp(2v)+1tanh(v) = \frac{exp(2v)-1}{exp(2v)+1}tan
复制链接

扫一扫

专栏目录