NLP-lstm解析

LSTM

LSTM原文下载地址

LSTM介绍

lstm的全称为Long Short Term Memory,译作长短期记忆网络,由Hochreiter & Schmidhuber于1977年提出,在深度学习兴起后,经过多位大佬的努力,LSTM开始发光发热。

LSTM解决的问题

LSTM解决的是RNN中遇到的长期依赖问题(主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题)

LSTM unit

unit配图 之后补上

LSTM的门机制

  • 输入门
  • 遗忘门
  • 输出门

遗忘门:

f t = σ ( W f ⋅ [ h t − 1 , x t ] + b f ) f_{t}=\sigma(W_{f}\cdot [h_{t-1},x_{t}]+b_{f}) ft=σ(Wf[ht1,xt]+bf)

输入门:

i t = σ ( W i ⋅ [ h t − 1 , x t ] + b i ) i_{t}=\sigma(W_{i}\cdot [h_{t-1},x_{t}]+b_{i}) it=σ(Wi[ht1,xt]+bi)

细胞(单位)状态更新

C ~ t = t a n h ( W c ⋅ [ h t − 1 , x t ] + b c ) \tilde{C}_{t}=tanh(W_{c}\cdot[h_{t-1},x_{t}]+b_{c}) C~t=tanh(Wc[ht1,xt]+bc)

输出门:

o t = σ ( W o ⋅ ( [ h t − 1 , x t ] + b o ) ) o_{t}=\sigma({W_{o}\cdot([h_{t-1},x_{t}]+b_{o}})) ot=σ(Wo([ht1,xt]+bo))

lstm迭代过程:

C t = f t ∗ C t − 1 + i t ∗ C ~ t C_{t}=f_{t}*C_{t-1}+i_{t}*\tilde{C}_{t} Ct=ftCt1+itC~t
h t = o t ∗ t a n h ( C t ) h_{t}=o_{t}*tanh(C_{t}) ht=ottanh(Ct)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值