第三课第二章 神经网络文本分类(二)

神经网络文本分类(二)

02 基于RNN/LSTM的文本分类模型详解

RNN天然具有时序性,因此成为文本分类模型最常用的模型。

2.1标准RNN及其局限

标准RNN
循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。理论上它会对所有历史信息进行记忆,但实际上由于历史信息在余弦函数上不停的压缩,出现梯度消失严重的问题,而导致无法长久记忆,因此后来出现GRU和LSTM等RNN的变种模型。RNN标准模型如图
在这里插入图片描述
而Benjio发现标准RNN无法长久记忆的问题:

  • 对噪音敏感
  • 对噪音不敏感, 但是优化过程中优化增量不是以指数递减
    尤其是对第二点,由于余弦函数是对历史信息不断压缩,因此其优化增量是以指数递减的。
    局限的原因
    标准RNN局限的原因主要是BPTT算法。如上图,RNN中,每个循环都形成一个完整的全连接网络。而当全连接被展开时,BP的“误差”是在网络的累积中,此时在一个展开的节点里会有多个时间点,则“误差”累积会不停的消灭掉,也就是说,当BP算法进行误差纠正时, 需要被“广播” 到循环所形成的完整的网络中,而余弦函数是在(-1,1),每次相乘都会越来越小,从而造成“梯度消失” 现象。

2.2 LSTM模型及其有效性

LSTM模型
长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。论文首次发表于1997年。在RNN基础上,通过增加“门” 来解决长效记忆问题,其独特的设计结构(如图),使得LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。
在这里插入图片描述
由图可知:

  • 通过cell state(Ct) 来传递信息
  • Ct贯穿整个时间轴, 与神经元内部只有较少的交互(相乘或相加)
    LSTM算法详解
    第一步 选择被遗忘信息
  • 通过“遗忘门层” 实现
  • 上一个时间的状态变量需要通过一个sigmoid激活函数。 这个函数根据输入的当前数据和上一期状态, 输出一个0到1之间的数值与Ct相乘
    在这里插入图片描述
    第二步 选择被保留信息
  • “输入门层” : 使用sigmoid函数决定哪些信息要更新
  • 使用tanh函数来生成更新Ct的信息
    在这里插入图片描述
    第三步 更新cell中信息
  • “遗忘门” 层输出的信息 × 上一期的cell信息Ct-1, 确定保留多少上一期cell信息的占比
  • 使用tanh函数来生成更新Ct的信息
  • 在保留的状态信息里, 添加第二步决定要保留的信息
    在这里插入图片描述
    第四步 决定输出
  • 使用一个sigmoid函数决定哪些状态信息需要输出
  • 将状态信息通过tanh函数压缩到(-1, 1) 之间
  • 乘以上一步得到的决策, 获得需要输出的信息
    在这里插入图片描述
    至此,一个LSTM模块完成输出,而整个网络都是有一个个LSTM块组成。
    **注意:**上述虽然对此用sigmoid函数和tanh函数,但中间参数不一样,因此输出也不一样。
    参考
    1.百度百科
    2.微专业《深度学习工程师(实战)》
    在这里插入图片描述
    后续持续更新……
    原创不易,如果觉得不错,就点个赞吧!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值