⛄一、双向长短时记忆(biLSTM)简介
1 LSTM网络基本原理
LSTM在RNN的基础上增加了单元状态,并引入内部“门”机制调节信息流,避免RNN出现的“梯度爆炸”和“梯度消失问题”。LSTM的结构算法为:
ft=σ(Wf·[ht-1,xt]+bf) (4)
it=σ(Wi·[ht-1,xt]+bi) (5)
c˜t=tanh(Wc)⋅[ht−1,xt]+bc) (6)ct=ft⋅ct−1+it⋅c˜t (7)ot=σ(W0⋅[ht−1,xt]+bo) (8)ht=ot⋅tanh(ct) (9)
式中,ft、it、c˜、ct、ot、ht分别为遗忘门、输入门、临时状态量、状态量、输出和最终输出单元值;W和b分别为各“门”对应的权重和偏置项;xt为输入向量;σ为将实数映射到[0,1]的sigmoid函数;tanh为将实数映射到[-1,1]的双曲正切函数。