理解LSTM网络+Python实现

最新推荐文章于 2024-07-31 07:40:50 发布

山河不夜天Ajatar

最新推荐文章于 2024-07-31 07:40:50 发布

阅读量1.6w

点赞数 18

分类专栏：深度学习文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/weixin_43795975/article/details/109547496

版权

文章目录

前言
一、传统RNN
二、RNN带来的缺陷
- 1、梯度爆炸和梯度弥散
- 2、memory记忆不足
三、LSTM理解
四、LSTM实践(Python)
- 训练minist数据集
- IMDB电影评论数据集进行文本分类
五、参考

前言

参照网上资料对LSTM的理解和总结，如文章内容有错误和不足之处，烦请读者联系作者修改。

一、传统RNN

循环神经网络（Recurrent Neural Network，RNN）是一种用于处理序列数据的神经网络，可以解决训练样本输入是连续且长短不一的序列的问题，比如基于时间序列的问题。

基础的神经网络只在层与层之间建立了权连接，RNN最大的不同之处就是在层与层之间的神经元之间也建立了权连接。

RNN神经网络的结构如下：
在这里插入图片描述

二、RNN带来的缺陷

1、梯度爆炸和梯度弥散

虽然在某些情况下，RNN神经网络的参数比卷积网络要少很多。但是，随着循环次数的叠加，很容易出现梯度爆炸或梯度弥散。而导致这个缺陷产生的主要原因是，传统RNN在计算梯度时，其公式中存在一个 $ω_{hh}$ 的k次方。

由于其梯度求解公式中有 $ω_{hh}$ 的k次方的存在，所以会出现下面的极限情况：
$ω_{hh}>1$ ， $ω_{hh}^k$ 接近于 $\infty$ ——出现梯度爆炸
$ω_{hh}<1$ ， $ω_{hh}^k$ 接近于 $0$ ——出现梯度弥散

2、memory记忆不足

虽然RNN使用了一个全局的memory去记录全局的语境信息，但实际上，memory只能记住很短的全局信息，随着迭代次数的增加，memory会逐渐遗忘前面的语境信息。

三、LSTM理解

长短期记忆（Long short-term memory， LSTM）是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度爆炸或梯度弥散问题。简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。

1、LSTM原理

LSTM 结构如下图，不同于单一神经网络层，这里是有四个，以一种非常特殊的方式进行交互。
在这里插入图片描述
LSTM 的关键就是细胞状态，水平线在图上方贯穿运行。
细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。

若只有上面的那条水平线是没办法实现添加或者删除信息的。LSTM网络在传统RNN网络中设置了三道闸门——输入门(Input Gate)、遗忘门(Forget Gate)、输出门(Output Gate)用于控制不同对象的输出量，达到选择性记忆的目的。

2、LSTM公式

前向传播

遗忘门：
$f_t=δ(W_f·[h_{t-1},x_t]+b_f)$

遗忘门决定上一时刻细胞状态 $C_{t-1}$ 中的多少信息（由 $f_t$

最低0.47元/天解锁文章

山河不夜天Ajatar

关注

18
点赞
踩
168

收藏

觉得还不错? 一键收藏
7
评论
理解LSTM网络+Python实现

文章目录前言一、传统RNN二、RNN带来的缺陷1、梯度爆炸和梯度弥散2、memory记忆不足三、LSTM1、LSTM原理四、参考资料前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、传统RNN循环神经网络（Recurrent Neural Network，RNN）是一种用于处理序列数据的神经网络，可以解决训练样本输入是连续且长短不一的序列的问题，比如基于时间序列的问题。基础的神
复制链接

扫一扫

专栏目录