深度学习升级打怪之序列模型-(RNN, LSTM)

最新推荐文章于 2023-06-06 16:44:48 发布

Serendipity-Wu

最新推荐文章于 2023-06-06 16:44:48 发布

阅读量689

点赞数

分类专栏：机器学习文章标签： rnn 深度学习 lstm

本文链接：https://blog.csdn.net/weixin_44077955/article/details/122654953

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

序列模型

对于序列学习问题如果我们使用标准的神经网络，则会有一些问题

输入和输出在不同的例子中有不同的长度，即使定义最大长度后补零也效果可能会比较差
对于NLP等领域的问题时，输入的维度过大，导致参数过多，神经网络不好训练

序列模型可以很好的帮助我们解决这些问题

RNN(recurrent neural network)

在这里插入图片描述

对于RNN而言，在前面的时间步的信息会影响到后面的结果。我们可以先初始化一个零向量 $a^{<0>}$ 和 $x^{<1>}$ 一起决定第一个时间步的输出 $\hat{y}^{<1>}$ , $a^{<1>}$ 和 $x^{<2>}$ 一起决定第二个时间步的输出，以此类推。我们用 $𝑊_{ax}$ 来表示管理着从 $𝑥^{<1>}$ 到隐藏层的连接的一系列参数，每个时间步使用的都是相同的参数 $𝑊_{ax}$ 。而激活值也就是水平联系是由参数 $𝑊_{𝑎𝑎}$ 决定的，同时每一个时间步都使用相同的参数 $𝑊_{𝑎𝑎}$ ，同样的输出结果由 $𝑊_{ya}$ 决定。
$\begin{gathered} a^{<1>}=g_{1}\left(W_{a a} a^{<0>}+W_{a x} x^{<1>}+b_{a}\right) \\ \hat{y}^{<1>}=g_{2}\left(W_{y a} a^{<1>}+b_{y}\right) \end{gathered}$
$a^i和\hat{y}^{<i>}$ 的具体计算可以由上面的公式得出，g表示激活函数（RNN的激活函数通常的tanh）。下图则更加清晰的画出了RNN的框图结构。

在这里插入图片描述

单向的RNN在当前的时间步只能够获得左端时间步的信息，但是有时候后面的信息也有助于模型的训练，比如下面这个例子。

在这里插入图片描述

这时候我们就可以使用双向RNN(Bidirectional RNN)。

在这里插入图片描述

除了单层模型，我们还可以有多层的RNN模型

在这里插入图片描述

对于RNN而言，这类模型也面临着一些问题，比如说梯度消失的问题，导致RNN不擅长处理长期依赖相关的问题。

LSTM(long short term memory)

相比于RNN， LSTM在处理长期依赖相关的问题往往能够有更好的结果。

在这里插入图片描述

对于LSTM的每一个cell而言，有三个门

更新门（update gate）
$\Gamma_{u}=\sigma\left(W_{u}\left[a^{<t-1>}, x^{<t>}\right]+b_{u}\right)$
输出门（output gate)
$\Gamma_{o}=\sigma\left(W_{o}\left[a^{<t-1>}, x^{<t>}\right]+b_{o}\right)$
遗忘门（forget gate）
$\Gamma_{f}=\sigma\left(W_{f}\left[a^{<t-1>}, x^{<t>}\right]+b_{f}\right)$
对于记忆细胞而言，它能够自己选择维持旧的c值还是用新的c值
$c^{<t>}=\Gamma_{u} * \tilde{c}^{<t>}+\Gamma_{f} * c^{<t-1>}$
如果使用LSTM我们能够更加容易让即使很长时间之前的信息也能够被保存。

参考资料：

① : 吴恩达深度学习deeplearning.ai

Serendipity-Wu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习升级打怪之序列模型-(RNN, LSTM)

序列模型对于序列学习问题如果我们使用标准的神经网络，则会有一些问题输入和输出在不同的例子中有不同的长度，即使定义最大长度后补零也效果可能会比较差对于NLP等领域的问题时，输入的维度过大，导致参数过多，神经网络不好训练序列模型可以很好的帮助我们解决这些问题RNN(recurrent neural network)对于RNN而言，在前面的时间步的信息会影响到后面的结果。我们可以先初始化一个零向量a<0>a^{<0>}a<0>和x<1>x^{&lt
复制链接

扫一扫