大话循环神经网络RNN、LSTM、GRU

全栈O-Jay

已于 2024-06-03 14:57:17 修改

阅读量3.7k

点赞数 6

分类专栏：人工智能文章标签： rnn lstm gru 深度学习神经网络

于 2023-04-02 23:48:48 首次发布

本文链接：https://blog.csdn.net/weixin_45116099/article/details/129916907

版权

人工智能专栏收录该内容

56 篇文章

订阅专栏

CNN主要处理图像信息，主要应用于计算机视觉领域。
RNN（recurrent neural network）主要就是处理序列数据（自然语言处理、语音识别、视频分类、文本情感分析、翻译），核心就是它能保持过去的记忆。但RNN有着梯度消失问题，专家之后接着改进为LSTM和GRU结构。下面将用通俗的语言分别详细介绍。

在这里插入图片描述

对机器学习或深度学习不太熟的童鞋可以先康康这几篇哦：
《无废话的机器学习笔记》
《一文极速理解深度学习》
《一文总结经典卷积神经网络CNN模型》

RNN（Recurrent Neural Network）

RNN中的处理单元，中间绿色就是过去处理的结果，左边第一幅图就是正常的DNN，不会保存过去的结果，右边的图都有一个特点，输出的结果（蓝色）不仅取决于当前的输入，还取决于过去的输入！不同的单元能赋予RNN不同的能力，如多对一就能对一串文本进行分类，输出离散值，比如根据你的言语判断你今天高不高兴。

在这里插入图片描述

RNN中保存着过去的信息，输出取决于现在与过去。如果大伙学过数电，这就是状态机！这玩意跟触发器很像。

在这里插入图片描述

有个很重要的点：
这个权重fw沿时间维度是一致的，权值共享。就像CNN中一个卷积核在卷积过程中参数一致。所以CNN是沿着空间维度权值共享；RNN是沿着时间维度权值共享。

具体来说有三个权重，过去与现在各一个权重，加起来再来一个权重。 它们都沿着时间维度权值共享。不然每个时间都不一样权重，参数量会很恐怖。

在这里插入图片描述

整体的计算图（多对多）：
每次的输出y可以与标签值构建损失函数，这样就跟之前DNN训练模型思想一样，训练3套权重使损失函数不断下降至满意。

在这里插入图片描述

反向传播要沿时间反向传回去（backpropagation through time，BPTT）
Forward through entire sequence to compute loss, then backward through entire sequence to compute gradient.

在这里插入图片描述

这样会有问题，就是一下子把全部序列弄进来求梯度，运算量非常大。实际我们会将大序列分成等长的小序列，分别处理：

在这里插入图片描述

不同隐含层中不同的值负责的是语料库中不同的特征，所以隐含状态的个数越多，模型就越能捕获文本的底层特征。

下面来看一个例子：字符级语言模型（由上文预测下文）：
我想输入hell，然后模型预测我会输出o；或者我输入h，模型输出e，我再输入e，模型输出l…
首先对h,e,l,o进行独热编码，然后构建模型进行训练。

在这里插入图片描述

输入莎士比亚的剧本，让模型自己生成剧本，训练过程：

在这里插入图片描述

输入latex文本，让模型自己生成内容，公式写得有模有样的，就不知道对不对：

在这里插入图片描述
当然输入代码，模型也会输出代码。所以现在火热的Chatgpt的本质就是RNN。

对于图像描述，专家会先用CNN对图像进行特征抽取（编码器），然后将特征再输入RNN进行图像描述（解码器）。

在这里插入图片描述

还可以结合注意力机制（Image captioning with attention）：

在这里插入图片描述

普通堆叠的RNN一旦隐含层变多变深，反向传播时就很容易出现梯度消失/爆炸。
子豪兄总结得非常好，以最简单的三层网络来看，对于输出的O3可以列出损失函数L3，对L3进行求偏导，分别对输出权重w0，输入权重wx，过去权重ws进行求导。我们发现对w0求偏导会很轻松。但是，由于链式法则（chain rule），对输入权重wx和过去权重ws求偏导就会很痛苦。在表达式里，对于越是前面层的链式求导，乘积项越多，所以很容易梯度消失/爆炸，梯度消失占大多数。

在这里插入图片描述

LSTM（Long Short-Term Memory）

长短时记忆神经网络（LSTM） 应运而生！
LSTM既有长期记忆也有短期记忆，包括遗忘门、输入门、输出门、长期记忆单元。右图红色函数是sigmoid，蓝色函数是tanh。

在这里插入图片描述

C是长期记忆，h是短期记忆。
所以当前输出ht是由短期记忆产生的。

在这里插入图片描述

我们看到长期记忆那条线是贯通的，且只有乘加操作。
在这里插入图片描述

LSTM算法详解：

下面几个图完美解释了：

在这里插入图片描述

所以总共有四个权重：Wf、Wi、Wc、Wo，当然还有它们对应的偏置项。
整体过程可以概括为：遗忘、更新、输出。（更新包括先选择保留信息，再更新最新记忆。）

原论文中的图也非常形象：

在这里插入图片描述

现在反向传播求偏导就舒服了

在这里插入图片描述

GRU（Gated Recurrent Unit）

GRU也能很好解决梯度消失问题，结构简单一点，主要就是重置门和更新门。

在这里插入图片描述

GRU与LSTM对比：

参数数量：GRU的参数数量相对LSTM来说更少，因为它将LSTM中的输入门、遗忘门和输出门合并为了一个门控单元，从而减少了模型参数的数量。
LSTM中有三个门控单元：输入门、遗忘门和输出门。每个门控单元都有自己的权重矩阵和偏置向量。这些门控单元负责控制历史信息的流入和流出。
GRU中只有两个门控单元：更新门和重置门。它们共享一个权重矩阵和一个偏置向量。更新门控制当前输入和上一时刻的输出对当前时刻的输出的影响，而重置门则控制上一时刻的输出对当前时刻的影响。
计算速度：由于参数数量更少，GRU的计算速度相对LSTM更快。
长序列建模：在处理长序列数据时，LSTM更加优秀。由于LSTM中引入了一个长期记忆单元（Cell State），使得它可以更好地处理长序列中的梯度消失和梯度爆炸问题。

GRU适用于：
处理简单序列数据，如语言模型和文本生成等任务。
处理序列数据时需要快速训练和推断的任务，如实时语音识别、语音合成等。
对计算资源有限的场景，如嵌入式设备、移动设备等。

LSTM适用于：
处理复杂序列数据，如长文本分类、机器翻译、语音识别等任务。
处理需要长时依赖关系的序列数据，如长文本、长语音等。
对准确度要求较高的场景，如股票预测、医学诊断等。

公式总结：
在这里插入图片描述