应该能看懂的GRU结构

GRU

结构图这是一张可爱的GRU结构图

向前传播的公式

注 : 图 中 用 h ′ 表 示 h ~ t r t = σ ( [ h t − 1 , x t ] ⋅ W r ) z t = σ ( [ h t − 1 , x t ] ⋅ W z ) h ~ t = tanh ⁡ ( [ r t ∗ h t − 1 , x t ] ⋅ W h ~ ) h t = ( 1 − z t ) ∗ h t − 1 + z t ∗ h ~ t y t = σ ( h t ⋅ W o ) \begin{array}{l} 注:图中用 h^{\prime} 表示 \tilde{h}_{t} \\ r_{t}=\sigma\left([h_{t-1}, x_{t}] \cdot W_{r}\right) \\ z_{t}=\sigma\left([h_{t-1}, x_{t}] \cdot W_{z}\right) \\ \tilde{h}_{t}=\tanh \left(\left[r_{t} * h_{t-1}, x_{t}\right] \cdot W_{\tilde{h}}\right) \\ h_{t}=\left(1-z_{t}\right) * h_{t-1}+z_{t} * \tilde{h}_{t} \\ y_{t}=\sigma\left(h_{t} \cdot W_{o} \right) \end{array} hh~trt=σ([ht1,xt]Wr)zt=σ([ht1,xt]Wz)h~t=tanh([rtht1,xt]Wh~)ht=(1zt)ht1+zth~tyt=σ(htWo)

  1. [ ]是将方括号内的矩阵拼接相连,如:[2, 3] 与 [11] 拼接成 [2, 3, 11]

  2. *表示矩阵的阿达马乘积,即元素对位相乘

  3. σ \sigma σ 是sigmoid函数 ,将数据缩放到 (0 ,1);tanh是双正切函数,将数据缩放到 (-1 , 1)

  4. reset重置门:决定丢弃前一时刻的状态信息的程度,r 越小丢弃越多,r范围(0,1)

  5. update更新门:在这,(1-z)构成遗忘门(参考LSTM)选择性遗忘前一时刻状态信息 h t − 1 h_{t-1} ht1 ,选择性记忆当前隐藏状态信息 h ′ h^{\prime} h ,最后得到 h t {h}_{t} ht有些博客是反过来的 h t = z t ∗ h t − 1 + ( 1 − z t ) ∗ h ~ t h_{t}=z_{t} * h_{t-1}+(1-z_{t}) * \tilde{h}_{t} ht=ztht1+(1zt)h~t 即把z当作遗忘门,问题不大,其实道理都差不多,懂我意思吧~

如果有错,非常欢迎指出错误,我会积极接受人民群众的批评,未完待续~

允许转载,请附上原创链接, 谢谢~

参考链接
https://zhuanlan.zhihu.com/p/32481747

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值