第三课第二章神经网络文本分类(二)

最新推荐文章于 2022-08-15 20:57:00 发布

xk_005

最新推荐文章于 2022-08-15 20:57:00 发布

阅读量876

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/xiaokan_001/article/details/105544103

版权

深度学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

神经网络文本分类(二)

02 基于RNN/LSTM的文本分类模型详解

RNN天然具有时序性，因此成为文本分类模型最常用的模型。

2.1标准RNN及其局限

标准RNN
循环神经网络（Recurrent Neural Network, RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network）。理论上它会对所有历史信息进行记忆，但实际上由于历史信息在余弦函数上不停的压缩，出现梯度消失严重的问题，而导致无法长久记忆，因此后来出现GRU和LSTM等RNN的变种模型。RNN标准模型如图
在这里插入图片描述
而Benjio发现标准RNN无法长久记忆的问题：

对噪音敏感
对噪音不敏感，但是优化过程中优化增量不是以指数递减
尤其是对第二点，由于余弦函数是对历史信息不断压缩，因此其优化增量是以指数递减的。
局限的原因
标准RNN局限的原因主要是BPTT算法。如上图，RNN中，每个循环都形成一个完整的全连接网络。而当全连接被展开时，BP的“误差”是在网络的累积中，此时在一个展开的节点里会有多个时间点，则“误差”累积会不停的消灭掉，也就是说，当BP算法进行误差纠正时，需要被“广播” 到循环所形成的完整的网络中，而余弦函数是在（-1，1），每次相乘都会越来越小，从而造成“梯度消失” 现象。

2.2 LSTM模型及其有效性

LSTM模型
长短期记忆网络（LSTM，Long Short-Term Memory）是一种时间循环神经网络，是为了解决一般的RNN（循环神经网络）存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。论文首次发表于1997年。在RNN基础上，通过增加“门” 来解决长效记忆问题，其独特的设计结构（如图），使得LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。
在这里插入图片描述
由图可知：

通过cell state（Ct）来传递信息
Ct贯穿整个时间轴，与神经元内部只有较少的交互（相乘或相加）
LSTM算法详解
第一步选择被遗忘信息
通过“遗忘门层” 实现
上一个时间的状态变量需要通过一个sigmoid激活函数。这个函数根据输入的当前数据和上一期状态，输出一个0到1之间的数值与Ct相乘

第二步选择被保留信息
“输入门层” ：使用sigmoid函数决定哪些信息要更新
使用tanh函数来生成更新Ct的信息

第三步更新cell中信息
“遗忘门” 层输出的信息 × 上一期的cell信息Ct-1，确定保留多少上一期cell信息的占比
使用tanh函数来生成更新Ct的信息
在保留的状态信息里，添加第二步决定要保留的信息

第四步决定输出
使用一个sigmoid函数决定哪些状态信息需要输出
将状态信息通过tanh函数压缩到（-1， 1）之间
乘以上一步得到的决策，获得需要输出的信息

至此，一个LSTM模块完成输出，而整个网络都是有一个个LSTM块组成。
**注意：**上述虽然对此用sigmoid函数和tanh函数，但中间参数不一样，因此输出也不一样。
参考
1.百度百科
2.微专业《深度学习工程师（实战）》

后续持续更新……
原创不易，如果觉得不错，就点个赞吧！