Datawhale2021年11月组队学习——循环神经网络-CSDN博客

本文链接：https://blog.csdn.net/zxc123qwer/article/details/121643081

本文介绍了循环神经网络(RNN)的计算图概念，重点剖析了RNN结构、BPTT训练算法，并深入探讨了LSTM的遗忘门、输入门和输出门机制，以及如何通过LSTM解决RNN的梯度消失问题。涵盖了词性标注和长短时记忆网络在自然语言处理的应用。

摘要由CSDN通过智能技术生成

以下学习笔记源于Datawhale“水很深的深度学习”课程的循环神经网络
原文链接： https://datawhalechina.github.io/unusual-deep-learning/

RNN

计算图

计算图的引入是为了更方便的表示网络，计算图是描述计算结构的一种图，它的元素包括节点(node)和边(edge)，节点表示变量，可以是标量、矢量、张量等，而边表示的是某个操作，即函数。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3orKvV3r-1638278361786)(./1638155192737.png)]

复合函数：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jusljuH7-1638278361788)(./1638155349425.png)]

计算图的求导，有两种情况：

情况1
情况2

求导举例：
例1：
在这里插入图片描述

a = 3, b = 1 可以得到 c = 4, d = 2, e = 8
$\frac{∂e}{∂a}=\frac{∂e}{∂c}\frac{∂c}{∂a}$ =d=b+1=2
$\frac{∂e}{∂b}=\frac{∂e}{∂c}\frac{∂c}{∂b}+\frac{∂e}{∂d}\frac{∂d}{∂b}$ =d+c=b+1+a+b=6

例2：
在这里插入图片描述

$\frac{∂Z}{∂X}=$ =αδ+αϵ+αζ+βδ+βϵ+βζ+γδ+γϵ+γζ=(α+β+γ)(δ+ϵ+ζ)

计算图可以很好的表示导数的前向传递和后向传递的过程,在例2中，前向传递 $\frac{∂}{∂X}$ ，后向传递 $\frac{∂}{∂Z}$
在这里插入图片描述

循环神经网络

一些常见的序列化结构：

文本：字母和词汇的序列
语音：音节的序列
视频：图像帧的序列
时态数据：气象观测数据，股票交易数据、房价数据等

RNN的发展历程：
在这里插入图片描述

核心思想：
样本间存在顺序关系，每个样本和它之前的样本存在关联。通过神经网络在时序上的展开，我们能够找到样本之间的序列相关性。

RNN一般结构：
在这里插入图片描述

各个符号的表示： $x_{t},s_{t},o_{t}$ 分别表示的是t时刻的输入、记忆和输出， $U, V, W$ 是RNN的连接权重， $b_{s},b_{o}$ 是RNN的偏置， $σ, φ$ 是激活函数， $σ$ 通常选tanh或sigmoid， $φ$ 通常选用softmax。

其中 softmax 函数，用于分类问题的概率计算。本质上是将一个K维的任意实数向量压缩 (映射)成另一个K维的实数向量，其中向量中的每个元素取值都介于(0，1)之间。
在这里插入图片描述

RNN案例

比如词性标注：

我/n,爱/v购物/n
我/n在/pre华联/n购物/v
中文/nz分词/n是/v文本处理/n不可或缺/l的/uj一步/m！/x

Word Embedding：自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。比如这里映射到三个向量然后输入：
在这里插入图片描述

将神经元的输出存到memory（记忆单元）中，memory中值会作为下一时刻的输入。在最开始时刻，给定 memory初始值，然后逐次更新memory中的值。
在这里插入图片描述

RNN一般结构

Elman Network
Jordan Network
各种结构RNN

RNN训练算法-BPTT

BPTT即BP算法加上了时序演化，TT即（Through Time）
在这里插入图片描述

定义输出函数：
$s_{t}=tanh(Ux_{t}+Ws_{t-1})$ $\hat{y_{t}}=softmax(Vs_{t})$
定义损失函数：
$E_{t}(y_{t},\hat{y_{t}})=-y_{t}log\hat{y_{t}}$
$E(y,\hat{y})=\sum_{t}E_{t}(y_{t},\hat{y_{t}})$
$=-\sum_{t}y_{t}log\hat{y_{t}}$

在这里插入图片描述

分别求损失函数E对U、V、W的梯度：
$\frac{∂E}{∂V}=\sum_{t}\frac{∂E_{t}}{∂V}$
$\frac{∂E}{∂V}=\sum_{t}\frac{∂E_{t}}{∂V}$
$\frac{∂E}{∂V}=\sum_{t}\frac{∂E_{t}}{∂V}$

求E对V的梯度，以 $E_{3}$ 举例，先求 $E_{3}$ 对V的梯度
$\frac{∂E_{3}}{∂V}=\frac{∂E_{3}}{∂\hat{y_{3}}}\frac{∂\hat{y_{3}}}{∂V}$
$=\frac{∂E_{3}}{∂\hat{y_{3}}} \frac{∂\hat{y_{3}}}{∂z_{3}} \frac{∂z_{3}}{∂V}$

其中 $z_{3}=Vs_{3}$ ,然后求和即可

求E对W的梯度，以 $E_{3}$ 举例，先求 $E_{3}$ 对W的梯度
$\frac{∂E_{3}}{∂W}=\frac{∂E_{3}}{∂\hat{y_{3}}}\frac{∂\hat{y_{3}}}{∂s_{3}}\frac{∂s_{3}}{∂W}$
$s_{3}=tanh(Ux_{3}+Ws_{2})$
$\frac{∂E_{3}}{∂W}=\sum_{k=0}^{3}\frac{∂E_{3}}{∂\hat{y_{3}}}\frac{∂\hat{y_{3}}}{∂s_{3}}\frac{∂s_{3}}{∂s_{k}}\frac{∂s_{k}}{∂W}$
$\frac{∂E_{3}}{∂W}=\sum_{k=0}^{3}\frac{∂E_{3}}{∂\hat{y_{3}}}\frac{∂\hat{y_{3}}}{∂s_{3}}(\prod_{j=k+1}^{3}\frac{∂s_{j}}{∂s_{j-1}})\frac{∂s_{k}}{∂W}$

其中： $s_{3}$ 依赖于 $s_{2}$ ，而 $s_{2}$ 又依赖于 $s_{1}$ 和W，依赖关系一直传递到 t = 0 的时刻。因此，当计算对于 W 的偏导时，不能把 $s_{2}$ 看作是常数项。

求E对U的梯度，以 $E_{3}$ 举例，先求 $E_{3}$ 对U的梯度
$\frac{∂E_{3}}{∂U}=\frac{∂E_{3}}{∂\hat{y_{3}}}\frac{∂\hat{y_{3}}}{∂s_{3}}\frac{∂s_{3}}{∂U}$
$s_{3}=tanh(Ux_{3}+Ws_{2})$
$\frac{∂E_{3}}{∂U}=\sum_{k=0}^{3}\frac{∂E_{3}}{∂\hat{y_{3}}}\frac{∂\hat{y_{3}}}{∂s_{3}}\frac{∂s_{3}}{∂s_{k}}\frac{∂s_{k}}{∂U}$

长短时记忆网络

在RNN中，存在着梯度消失问题，一开始我们不能有效的解决长时依赖问题，其中梯度消失的原因有两个：BPTT算法和激活函数Tanh。
解决方法：

ReLU函数
门控RNN(LSTM)

LSTM

LSTM即长短时记忆网络，是一种用于深度学习领域的人工循环神经网络（RNN）结构。一个LSTM单元由输入门、输出门和遗忘门组成，三个门控制信息进出单元。
在这里插入图片描述

LSTM依靠贯穿隐藏层的细胞状态实现隐藏单元之间的信息传递，其中只有少量的线性操作
LSTM引入了“门”机制对细胞状态信息进行添加或删除，由此实现长程记忆
“门”机制由一个Sigmoid激活函数层和一个向量点乘操作组成，Sigmoid层的输出控制了信息传递的比例

遗忘门：LSTM通过遗忘门(forget gate)实现对细胞状态信息遗忘程度的控制，输出当前状态的遗忘权重，取决于 $h_{t-1}$ 和 $x_{t}$

$f_{t}=σ(W_{f}⋅[h_{t-1,x_{t}}]+b_{f})$
在这里插入图片描述

输入门：LSTM通过输入门(input gate)实现对细胞状态输入接收程度的控制，输出当前输入信息的接受权重，取决于 $h_{t-1}$ 和 $x_{t}$
$i_{t}=σ(W_{i}⋅[h_{t-1},x_{t}]+b_{i})$
$\tilde{C}=tanh(W_{c}⋅[h_{t-1},x_{t}]+b_{c})$

在这里插入图片描述

输出门：LSTM通过输出门(output gate)实现对细胞状态输出认可程度的控制，输出当前输出信息的认可权重，取决于 $h_{t-1}$ 和 $x_{t}$
$o_{t}=σ(W_{o}⋅[h_{t-1,x_{t}}]+b_{o})$
在这里插入图片描述

状态更新：“门”机制对细胞状态信息进行添加或删除，由此实现长程记忆。
$C_{t}=f_{t}*C_{t-1}+i_{t}*\tilde{C}_{t}$
$h_{t}=o_{t}*tanh(C_{t})$
在这里插入图片描述

一个标准化的RNN的例子：

#构造RNN网络，x的维度5，隐层的维度10,网络的层数2
rnn_seq = nn.RNN(5,10,2)
#构造一个输入序列，长为6，batch是3，特征是5
X =V(torch.randn(6,3,5))
#out,ht = rnn_seq(x，h0) # h0可以指定或者不指定
out,ht = rnn_seq(x)
# q1:这里out、ht的size是多少呢? out:6*3*10， ht:2*3*10

#输入维度50，隐层100维，两层
Lstm_seq = nn.LSTM(50,100,num_layers=2)
#输入序列seq= 10，batch =3，输入维度=50
lstm_input = torch.randn(10,3,50)
out,(h,c) = lstm_seq(lstm_input) #使用默认的全0隐藏状态