Towards Binary-Valued Gates for Robust LSTM Training
一、首先给出LSTM公式
it=σ(Wxixt+Whiht−1+bi)
i
t
=
σ
(
W
x
i
x
t
+
W
h
i
h
t
−
1
+
b
i
)
ft=σ(Wxfxt+Whfht−1+bf)
f
t
=
σ
(
W
x
f
x
t
+
W
h
f
h
t
−
1
+
b
f
)
ot=σ(Wxoxt+Whoht−1+bo)
o
t
=
σ
(
W
x
o
x
t
+
W
h
o
h
t
−
1
+
b
o
)
zi=tanh(Wxzxt+Whzht−1+bz))
z
i
=
t
a
n
h
(
W
x
z
x
t
+
W
h
z
h
t
−
1
+
b
z
)
)
ct=ct−1∗fi+zi∗it
c
t
=
c
t
−
1
∗
f
i
+
z
i
∗
i
t
ot=ot∗tanh(ct)
o
t
=
o
t
∗
t
a
n
h
(
c
t
)
在输入门,与遗忘门通常使用的是 σ σ 函数,公式是: σ(y)=eyi∑Nj=1eyj σ ( y ) = e y i ∑ j = 1 N e y j 是一个0-1的值。我们选用该函数的目的就是为了用这些门来控制信息的流动。在此文中作者提出一种新的方法,即用 Gumbel 函数来更好的逼近0,和1从而使得更好的达到我们预期的目标。因为:此时函数大多时候处于0,和1附近,而不是出于0-1的某些中间值,使得结果解释性更好。
通过实验作者发现。
1、尽管看上去限制取值的柔度会影响模型效果,但实际情况并不是如此。
2、每一个门的输出对他们的输入不会特别敏感。
二、证明Gumbel的可用性
定义
σ(.)
σ
(
.
)
是是一个sigmoid()函数。给定
α∈R
α
∈
R
并且
τ>0
τ
>
0
.定义随机变量
Dα∼B(σ(α))
D
α
∼
B
(
σ
(
α
)
)
这里
B(σ(α))
B
(
σ
(
α
)
)
是伯努利分布,定义
G(α,τ)=σ(α+logU−log(1−U)τ)
G
(
α
,
τ
)
=
σ
(
α
+
l
o
g
U
−
l
o
g
(
1
−
U
)
τ
)
,这里
U∼Uniform(0,1)
U
∼
U
n
i
f
o
r
m
(
0
,
1
)
那门下面的不等式在当
ε∈(0,1/2)
ε
∈
(
0
,
1
/
2
)
时,成立。
P(Dα=1)−(τ/4)log(1/ε)⩽P(G(α,τ)⩾1−ε)⩽P(Dα=1)
P
(
D
α
=
1
)
−
(
τ
/
4
)
l
o
g
(
1
/
ε
)
⩽
P
(
G
(
α
,
τ
)
⩾
1
−
ε
)
⩽
P
(
D
α
=
1
)
(1)
P(Dα=0)−(τ/4)log(1/ε)⩽P(G(α,τ)⩾1−ε)⩽P(Dα=0)
P
(
D
α
=
0
)
−
(
τ
/
4
)
l
o
g
(
1
/
ε
)
⩽
P
(
G
(
α
,
τ
)
⩾
1
−
ε
)
⩽
P
(
D
α
=
0
)
(2)
证明:
σ(x)=11+e−x
σ
(
x
)
=
1
1
+
e
−
x
则
σ−1(x)=logx1−x
σ
−
1
(
x
)
=
l
o
g
x
1
−
x
P(G(α,τ)⩾1−ε)
P
(
G
(
α
,
τ
)
⩾
1
−
ε
)
=P(σ(α+logU−log(1−U)τ)⩾1−ε)
=
P
(
σ
(
α
+
l
o
g
U
−
l
o
g
(
1
−
U
)
τ
)
⩾
1
−
ε
)
这里用的是逆哈函数,直接两边取逆函数,根据性质当原函数递增的时候,逆函数也递增。
=P(α+logU−log(1−U)τ⩾log(1ε−1))
=
P
(
α
+
l
o
g
U
−
l
o
g
(
1
−
U
)
τ
⩾
l
o
g
(
1
ε
−
1
)
)
=P(eα−τlog(1ε−1)⩾(1−U)U)
=
P
(
e
α
−
τ
l
o
g
(
1
ε
−
1
)
⩾
(
1
−
U
)
U
)
=P(U⩾11+eα−τlog(1ε−1)
=
P
(
U
⩾
1
1
+
e
α
−
τ
l
o
g
(
1
ε
−
1
)
=σ(α−τlog(1ε−1))
=
σ
(
α
−
τ
l
o
g
(
1
ε
−
1
)
)
考虑到sigmoid function是四分之一的Lipschitz 连续并且单点递增,于是有
P(Dα=1)−P(G(α,τ)⩾1−ε)
P
(
D
α
=
1
)
−
P
(
G
(
α
,
τ
)
⩾
1
−
ε
)
=σ(α)−σ(α−τlog(1ε−1))
=
σ
(
α
)
−
σ
(
α
−
τ
l
o
g
(
1
ε
−
1
)
)
⩾(τ4)log(1ε−1)⩾(τ4)log(1ε)
⩾
(
τ
4
)
l
o
g
(
1
ε
−
1
)
⩾
(
τ
4
)
l
o
g
(
1
ε
)
并且 P(Dα=1)−P(G(α,τ)⩾1−ε)⩾0 P ( D α = 1 ) − P ( G ( α , τ ) ⩾ 1 − ε ) ⩾ 0
当
τ
τ
逼近0时候公式一,公式二再根据夹逼准则于,
P(limτ−0+G(α,τ)=1)=P(Dα=1)
P
(
l
i
m
τ
−
0
+
G
(
α
,
τ
)
=
1
)
=
P
(
D
α
=
1
)
P(limτ−0+G(α,τ)=0)=P(Dα=0)
P
(
l
i
m
τ
−
0
+
G
(
α
,
τ
)
=
0
)
=
P
(
D
α
=
0
)
于是Gumble函数近似二项分布
最终LSTM公式被修改成
it=G(Wxixt+Whiht−1+bi,τ),
i
t
=
G
(
W
x
i
x
t
+
W
h
i
h
t
−
1
+
b
i
,
τ
)
,
ft=G(Wxfxt+Whfht−1+bf,τ)
f
t
=
G
(
W
x
f
x
t
+
W
h
f
h
t
−
1
+
b
f
,
τ
)
ot=σ(Wxoxt+Whoht−1+bo)
o
t
=
σ
(
W
x
o
x
t
+
W
h
o
h
t
−
1
+
b
o
)
zi=tanh(Wxzxt+Whzht−1+bz))
z
i
=
t
a
n
h
(
W
x
z
x
t
+
W
h
z
h
t
−
1
+
b
z
)
)
ct=ct−1∗fi+zi∗it
c
t
=
c
t
−
1
∗
f
i
+
z
i
∗
i
t
ot=ot∗tanh(ct)
o
t
=
o
t
∗
t
a
n
h
(
c
t
)