第十章循环神经网络RNN&LSTM

ModelBulider

于 2024-08-21 08:00:00 发布

阅读量331

点赞数 16

分类专栏： PyTorch 文章标签： rnn lstm 人工智能深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_44063529/article/details/141287877

版权

PyTorch 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

一、时间序列表示方法
- 1.1 pytorch中表示时间序列
二、RNN原理
三、时间序列预测实战
四、梯度弥散与梯度爆炸
- 4.1 梯度爆炸
- 4.2 梯度弥散
五、LSTM
六、情感分类实战

一、时间序列表示方法

在这里插入图片描述

使用数值表示序列数据
时间序列数据表示
图像数据的序列表示
文字序列数据表示（词嵌入）
one-hot由于 ① 稀疏；②高维度等特点，使得很少使用
经常使用：① word2vec；② glove
序列数据中的Batch格式

1.1 pytorch中表示时间序列

word2vec方式
① 首先要保存一个Embedding字典（一般在网络上下载）
② 对每个输入单词使用index索引在Embedding字典中找到一个向量表示
GloVe
是NLP领域已知的一个字典，可以直接得到单词对应的向量

二、RNN原理

2.1 使用全连接的情感分析任务情景

在这里插入图片描述

缺陷：
① 在长句输入模型中，参数量很大
② 文字前后没有联系

2.2 优化模型

第一步：共享权重（减少学习的权重参数量）
第二步：持续记忆（使序列前后存在联系）
使用 $h_i$ 单元充当 “语境记忆单元” ，当前序列计算均与前面的 “语境记忆单元” 有关，从而保证各序列之间存在联系

2.3 RNN单元结构

折叠的单元结构
展开的单元结构
RNN的公式表示

在这里插入图片描述

2.4 RNN模型实现

在这里插入图片描述

pytorch实现

① rnn = nn.RNN(input_size,hidden_size,num_layer)
a) input_size：输入序列值的向量维度 feature_len
b) hidden_size：隐藏（语境记忆）单元的维度 hidden_len
c) num_layer：设置RNN上下连接的层数，默认为1
在这里插入图片描述

② out, $h_t$ = rnn(x,h0)
a) x：表示输入序列数据 [seq len,b,word vec]，RNN时间序列步个数等于seq len
b) h0：表示起始记忆单元 $h_i$ 的初始值 [num layer,b,h dim]
c) $h_t$ ：表示最后一个序列步(t)上每一层的 $h_t$ 的表示
d) out：表示最后一层中每个时间序列步计算得到的 $h_t$ 的表示
在这里插入图片描述

单层RNN实现
多层RNN

在这里插入图片描述

pytorch的另一种实现方式
构建单个时间步的结构，手动的连接各时间步

在这里插入图片描述

① 一层RNN
在这里插入图片描述

② 二层RNN
在这里插入图片描述

三、时间序列预测实战

预测正弦波的下一输出范围
在这里插入图片描述

创建用于训练的样本数据
网络结构
训练过程
预测过程

四、梯度弥散与梯度爆炸

在这里插入图片描述

4.1 梯度爆炸

由于反向传播式中包含， $W^k_R$ 项。
1）当 $W_R$ 大于1时，梯度将指数级增长。loss 会突然变大
2）当 $W_R$ 小于1时，梯度将趋近于0。loss 会几乎不变
在这里插入图片描述

解决梯度爆炸的方法
pytorch实现解决梯度爆炸的方法
使用 torch.nn.utils.clip_grad_norm_(param，threshold)
① param：指定要限制梯度下降的参数
② threshold：指定梯度下降值的阈值

4.2 梯度弥散

在这里插入图片描述

使用LSTM解决梯度弥散问题

五、LSTM

① 标准的RNN结构中，使用的 $h_i$ 是短时记忆（只能较好的接收相邻近的时间步输出值），对长时间序列信息不能很好的获知
② LSTM实现了长短时记忆功能
在这里插入图片描述

5.1 LSTM结构分析

标准RNN的结构图
LSTM的RNN单元结构
主要原理是：设计了三个门控开关（遗忘门、输入门、输出门）
① 遗忘门控制传入的前面所有时间步的记忆信息
② 输入门控制结合前一时间步输出与当前时间步的输入的数据
③ 输出门控制当前时间步的输出数据
门控开关均由sigmoid函数实现

在这里插入图片描述

抽象LSTM的结构

在这里插入图片描述

5.2 LSTM解决梯度弥散

将标准RNN中 $W_R$ 指数项变为，多个 $W$ 相加，一定程度上减少了梯度弥散
在这里插入图片描述

5.3 LSTM的pytorch实现

① lstm_rnn = nn.LSTM(input_size,hidden_size,num_layer)
a) input_size：输入序列值的向量维度 feature_len
b) hidden_size：隐藏（语境记忆）单元的维度 hidden_len (此处包含了LSTM中的 $C$ 与 $h$ )
c) num_layers：设置RNN上下连接的层数，默认为1
在这里插入图片描述

② out, $h_t$ , $c_t$ = lstm_rnn(x,h0)
a) x：表示输入序列数据 [seq len,b,word vec]，RNN时间序列步个数等于seq len
b) h0：表示起始记忆单元 $h_i$ 的初始值 [num layer,b,h dim]
c) $h_t$ ：表示最后一个序列步(t)上每一层的 $h_t$ 的表示
d) $c_t$ ：表示最后一个序列步(t)上每一层的 $c_t$ 的表示
d) out：表示最后一层中每个时间序列步计算得到的 $h_t$ 的表示
在这里插入图片描述

注：传入的是初始状态的 $c_{t0}$ 与 $h_{t0}$

pytorch实现
pytorch对LSTM的另一种实现

在这里插入图片描述

① 一层LSTM的实现
在这里插入图片描述

② 二层LSTM的实现
在这里插入图片描述

六、情感分类实战

在这里插入图片描述

使用goolge的实验平台

在这里插入图片描述

注：① 若RNN中使用双向的LSTM，则输入与输出的 $h$ 和 $c$ 中num_layer会乘以2
② output中hid_dim会乘以2

初始化词嵌入字典
训练过程
测试过程

ModelBulider

关注

16
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
第十章循环神经网络RNN&LSTM

b) hidden_size：隐藏（语境记忆）单元的维度 hidden_len (此处包含了LSTM中的。b) hidden_size：隐藏（语境记忆）单元的维度 hidden_len。a) input_size：输入序列值的向量维度 feature_len。a) input_size：输入序列值的向量维度 feature_len。a) x：表示输入序列数据 [seq len,b,word vec]，a) x：表示输入序列数据 [seq len,b,word vec]，one-hot由于 ① 稀疏；
复制链接

扫一扫