RNN,GRU,LSTM计算公式

最新推荐文章于 2024-04-11 10:42:40 发布

weixin_45997688

最新推荐文章于 2024-04-11 10:42:40 发布

阅读量613

点赞数

分类专栏：深度学习文章标签：神经网络

本文链接：https://blog.csdn.net/weixin_45997688/article/details/104364822

版权

深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1.循环神经网络（recurrent neural network，简称RNN）

RNN
假设 $X_t\in R^{n\times d}$ 是时间步 $t$ 的小批量输入， $H_t\in R^{n\times h}$ 是该时间步的隐藏变量，则
$H_t=\phi(X_tW_{xh}+H_{t-1}W_{hh}+b_h)$ ，
其中， $W_{xh}\in R^{d\times h},W_{hh}\in R^{h\times h},b_h\in R^{1\times h}$ ， $\phi$ 函数时非线性激活函数。
在时间步 $t$ ，输出层的输出为：
$Y_t=H_tW_{hq}+b_q$ ，
其中， $W_{hq}\in R^{h\times q},b_q\in R^{1\times q}$ ， $Y_t$ 的大小时 $n\times q$ 。

2.（Gated Recurrent Unit，简称GRU）

假设 $X_t\in R^{n\times d}$ 是时间步 $t$ 的小批量输入， $H_t\in R^{n\times h}$ 是该时间步的隐藏变量，则
$R_t=\sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_r)$
$Z_t=\sigma(X_tW_{xz}+H_{t-1}W_{hz}+b_z)$
$\widetilde{H_t}=tanh(X_tW_{xh}+(R_t\odot H_{t-1})W_{hh}+b_h)$
$H_t=Z_t\odot H_{t-1}+(1-Z_t)\odot \widetilde{H_t}$
在时间步 $t$ ，输出层的输出为：
$Y_t=H_tW_{hq}+b_q$ 。
其中， $W_{xr},W_{xz},W_{xh}$ 的大小都是 $d\times h$ ， $W_{hr},W_{hz},W_{hh}$ 的大小都是 $h\times h$ ， $W_{hq}$ 的大小为 $h\times q$ ； $b_r,b_z,b_h$ 的大小都是 $1\times h$ ， $b_q$ 的大小为 $1\times q$ ，它们与前面的矩阵相加时会用到广播机制。且这些参数的下标只是一个便于记忆的标记而已，只起到区分变量的作用，没有其他作用，将其换为 $W_1,W_2,W_3,W_4,W_5,W_6,W_7,b_1,b_2,b_3,b_4$ 也未尝不可。 $R_t,Z_t,\widetilde{H_t}$ 的大小是 $n\times h$ ， $Y_t$ 的大小时 $n\times q$ 。

3.长短期记忆（Long Short-term Memory，简称LSTM）

LSTM
假设 $X_t\in R^{n\times d}$ 是时间步 $t$ 的小批量输入， $H_t\in R^{n\times h}$ 是该时间步的隐藏变量，则
$I_t = σ(X_tW_{xi} + H_{t−1}W_{hi} + b_i) \\ F_t = σ(X_tW_{xf} + H_{t−1}W_{hf} + b_f)\\ O_t = σ(X_tW_{xo} + H_{t−1}W_{ho} + b_o)\\ \widetilde{C}_t = tanh(X_tW_{xc} + H_{t−1}W_{hc} + b_c)\\ C_t = F_t ⊙C_{t−1} + I_t ⊙\widetilde{C}_t\\ H_t = O_t⊙tanh(C_t)$
在时间步 $t$ ，输出层的输出为：
$Y_t=H_tW_{hq}+b_q$ 。
其中， $W_{xi},W_{xf},W_{xo},W_{xc}$ 的大小是 $d\times h$ ， $W_{hi},W_{hf},W_{ho},W_{hc}$ 的大小是 $h\times h$ ， $W_{hq}$ 的大小为 $h\times q$ ； $b_q$ 的大小为 $1\times q$ ， $b_i,b_f,b_o,b_c$ 的大小是 $1\times h$ ，它与前面的加号加的时候会用到广播机制。同样，这些参数的下标也只是便于记忆的标记而已，只起到区分变量的作用，没有其他作用。 $I_t,F_t,O_t,\widetilde{C},C_t$ 的大小是 $n\times h$ ， $Y_t$ 的大小是 $n\times q$ 。

weixin_45997688

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RNN,GRU,LSTM计算公式

1.循环神经网络（recurrent neural network，简称RNN）假设Xt∈Rn×dX_t\in R^{n\times d}Xt∈Rn×d是时间步ttt的小批量输入，Ht∈Rn×hH_t\in R^{n\times h}Ht∈Rn×h是该时间步的隐藏变量，则Ht=ϕ(XtWxh+Ht−1Whh+bh)H_t=\phi(X_tW_{xh}+H_{t-1}W_{hh}+b_h)...
复制链接

扫一扫