GRU算法详解

一、原因

前面我们讲了一种普通的LSTM,事实上LSTM存在很多变体,许多论文中的LSTM都或多或少的不太一样。在众多的LSTM变体中,GRU (Gated Recurrent Unit)也许是最成功的一种。它对LSTM做了很多简化,同时却保持着和LSTM相同的效果。因此,GRU最近变得越来越流行。

二、定义
1.GRU的网络结构

RNN:有两个输入,两个输出。
LSTM:有三个输入,三个输出。
GRU:有两个输入,两个输出。
在这里插入图片描述

GRU有两个门,一个重置门r和一个更新门,直观的,重置门决定了如何把新的输入与之前的记忆相结合,更新门决定多少先前的记忆起作用。

如果我们把所有reset设置为全1,更新门设置为全0,又达到了普通RNN的形式;

2.GRU两个门
  • 更新门
  • 重置门
(1).更新门

将LSTM里面的遗忘门和输入门合并为更新门

(1).重置门
三、相关公式
1.模块内图

在这里插入图片描述

2. GRU的五个公式

(1) z u = σ ( w u ∗ [ h t − 1 , x t ] + b u ) z^u=σ(w_u*[h^{t-1},x^t]+b_u) zu=σ(wu[ht1,xt]+bu) 更新门
(2) z r = σ ( w i ∗ [ h t − 1 , x t ] + b r ) z^r=σ(w_i*[h^{t-1},x^t]+b_r) zr=σ(wi[ht1,xt]+br) 重置门
(3) z = σ ( w ∗ [ h t − 1 ⊙ z r , x t ] + b ) z=σ(w*[h^{t-1}⊙z^r,x^t]+b) z=σ(w[ht1zr,xt]+b)
(4) h t = z u ⊙ c t − 1 + ( 1 − z u ) ⊙ z h^t=z^u⊙c^{t-1}+(1-z^u)⊙z ht=zuct1+(1zu)z 输出1
(5) y t = σ ( w ′ h t ) y^t=σ(w'h^t) yt=σ(wht) 输出3

公式(4)是将LSTM的 c t c^t ct公式简化了。

参考:

https://zhuanlan.zhihu.com/p/32481747

  • 11
    点赞
  • 99
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值