机器学习-循环神经网络LSTM理论知识(三)

目录

LSTM基础介绍:

遗忘门:

输入门:

刷新​:

输出门:

总结:


循环神经网络在处理较长的句子时只能理解有限长度的信息,对于较大范围内的信息不能很好利用起来,被称为短时记忆。后来提出长短时记忆网络(Long Short-Term Memory,简称 LSTM),LSTM 相对于基础的 RNN 网络来说,记忆能力更强,更擅长处理较长的序列信号数据。

LSTM基础介绍:

传统的RNN只有一个状态向量\small h_{t},LSTM在此基础上又添加了一个状态向量\small C_{t}。同时引入了门控(Gate)机制,通过门控单元来控制信息的遗忘和刷新。\small C_{t}表示内部状态向量,\small h_{t}表示输出向量(替代RNN中的O),与普通RNN不同的是LSTM内部有两个状态向量\small C_{t}\small h_{t}流动。内部有三个门控输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)来控制内部信息的流动。阀门开闭程度利用门控值向量g表示,激活函数将门控值压缩到0~1之间,为0的时候表示阀门关闭,为1表示阀门完全开启。


遗忘门:

遗忘门作用于 LSTM 状态向量C上面,用于控制上一个时间戳的记忆\small C_{t-1}对当前时间戳 的影响。此处的门控为\small g_{f}\small g_{f}\small h_{t-1}\small X_{t}经由线性变换再经过激活函数优化得到,激活函数一般选取sigmoid(便于将数值优化为0~1)。遗忘门是控制上一个时间戳的影响,\small g_{f}可以表示影响程度,即经过遗忘门后状态向量为\small g_{f}\small C_{t-1}


输入门:

输入门用于控制 LSTM 对输入的接受程度。首先构建输入\small \tilde{C}_{t},是当前LSTMCell中的临时变量,由\small h_{t-1}\small X_{t}经由变换后再经过激活函数优化得到,激活函数一般选取tanh输入标准化到[−1,1]区间。门控\small g_{i}得到的方法和遗忘门\small g_{f}一样,最终\small g_{i}表示对输入\small \tilde{C}_{t}的接受程度,最终经过输入门后状态向量为\small g_{i}\small \tilde{C}_{t}


刷新\small C_{t}

\small C_{t}\small g_{f}\small C_{t-1}+  \small g_{i}\small \tilde{C}_{t}此时得到的结果就是就是当前时间戳的状态向量。


输出门:

相比于RNN得到的\small h_{t}既作为状态向量也作为输出,LSTM状态向量不会全部输出,而是在门控的作用下有选择地输出。门控\small g_{o}计算方法和\small g_{f}\small g_{i}一样。为1时表示全部输出,为0时不输出。最终输出\small h_{t}=\small g_{o}tanh(\small C_{t}),最终结果属于[-1,1].


总结:

针对三个门控,其中输出门较为简单,遗忘门和输入门都具有特殊意义。

输入门为0,遗忘门为1时,只使用前一个时间戳的记忆

输入门为1,遗忘门为1时,综合输入和记忆

输入门为1,遗忘门为0时,只使用当前的输入,覆盖记忆

输入门为0,遗忘门为0时,无输入,也不使用记忆,直接清空

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值