一、原因
前面我们讲了一种普通的LSTM,事实上LSTM存在很多变体,许多论文中的LSTM都或多或少的不太一样。在众多的LSTM变体中,GRU (Gated Recurrent Unit)也许是最成功的一种。它对LSTM做了很多简化,同时却保持着和LSTM相同的效果。因此,GRU最近变得越来越流行。
二、定义
1.GRU的网络结构
RNN:有两个输入,两个输出。
LSTM:有三个输入,三个输出。
GRU:有两个输入,两个输出。
GRU有两个门,一个重置门r和一个更新门,直观的,重置门决定了如何把新的输入与之前的记忆相结合,更新门决定多少先前的记忆起作用。
如果我们把所有reset设置为全1,更新门设置为全0,又达到了普通RNN的形式;
2.GRU两个门
- 更新门
- 重置门
(1).更新门
将LSTM里面的遗忘门和输入门合并为更新门
(1).重置门
三、相关公式
1.模块内图
2. GRU的五个公式
(1)
z
u
=
σ
(
w
u
∗
[
h
t
−
1
,
x
t
]
+
b
u
)
z^u=σ(w_u*[h^{t-1},x^t]+b_u)
zu=σ(wu∗[ht−1,xt]+bu) 更新门
(2)
z
r
=
σ
(
w
i
∗
[
h
t
−
1
,
x
t
]
+
b
r
)
z^r=σ(w_i*[h^{t-1},x^t]+b_r)
zr=σ(wi∗[ht−1,xt]+br) 重置门
(3)
z
=
σ
(
w
∗
[
h
t
−
1
⊙
z
r
,
x
t
]
+
b
)
z=σ(w*[h^{t-1}⊙z^r,x^t]+b)
z=σ(w∗[ht−1⊙zr,xt]+b)
(4)
h
t
=
z
u
⊙
c
t
−
1
+
(
1
−
z
u
)
⊙
z
h^t=z^u⊙c^{t-1}+(1-z^u)⊙z
ht=zu⊙ct−1+(1−zu)⊙z 输出1
(5)
y
t
=
σ
(
w
′
h
t
)
y^t=σ(w'h^t)
yt=σ(w′ht) 输出3
公式(4)是将LSTM的 c t c^t ct公式简化了。