Towards Binary-Valued Gates for Robust LSTM Training

Towards Binary-Valued Gates for Robust LSTM Training

一、首先给出LSTM公式

it=σ(Wxixt+Whiht1+bi) i t = σ ( W x i x t + W h i h t − 1 + b i )
ft=σ(Wxfxt+Whfht1+bf) f t = σ ( W x f x t + W h f h t − 1 + b f )
ot=σ(Wxoxt+Whoht1+bo) o t = σ ( W x o x t + W h o h t − 1 + b o )
zi=tanh(Wxzxt+Whzht1+bz)) z i = t a n h ( W x z x t + W h z h t − 1 + b z ) )
ct=ct1fi+ziit c t = c t − 1 ∗ f i + z i ∗ i t
ot=ottanh(ct) o t = o t ∗ t a n h ( c t )

在输入门,与遗忘门通常使用的是 σ σ 函数,公式是: σ(y)=eyiNj=1eyj σ ( y ) = e y i ∑ j = 1 N e y j 是一个0-1的值。我们选用该函数的目的就是为了用这些门来控制信息的流动。在此文中作者提出一种新的方法,即用 Gumbel 函数来更好的逼近0,和1从而使得更好的达到我们预期的目标。因为:此时函数大多时候处于0,和1附近,而不是出于0-1的某些中间值,使得结果解释性更好。

通过实验作者发现。
1、尽管看上去限制取值的柔度会影响模型效果,但实际情况并不是如此。
2、每一个门的输出对他们的输入不会特别敏感。

二、证明Gumbel的可用性

定义 σ(.) σ ( . ) 是是一个sigmoid()函数。给定 αR α ∈ R 并且 τ>0 τ > 0 .定义随机变量 DαB(σ(α)) D α ∼ B ( σ ( α ) ) 这里 B(σ(α)) B ( σ ( α ) ) 是伯努利分布,定义 G(α,τ)=σ(α+logUlog(1U)τ) G ( α , τ ) = σ ( α + l o g U − l o g ( 1 − U ) τ ) ,这里 UUniform(0,1) U ∼ U n i f o r m ( 0 , 1 ) 那门下面的不等式在当 ε(0,1/2) ε ∈ ( 0 , 1 / 2 ) 时,成立。
P(Dα=1)(τ/4)log(1/ε)P(G(α,τ)1ε)P(Dα=1) P ( D α = 1 ) − ( τ / 4 ) l o g ( 1 / ε ) ⩽ P ( G ( α , τ ) ⩾ 1 − ε ) ⩽ P ( D α = 1 ) (1)
P(Dα=0)(τ/4)log(1/ε)P(G(α,τ)1ε)P(Dα=0) P ( D α = 0 ) − ( τ / 4 ) l o g ( 1 / ε ) ⩽ P ( G ( α , τ ) ⩾ 1 − ε ) ⩽ P ( D α = 0 ) (2)

证明:

σ(x)=11+ex σ ( x ) = 1 1 + e − x
σ1(x)=logx1x σ − 1 ( x ) = l o g x 1 − x

P(G(α,τ)1ε) P ( G ( α , τ ) ⩾ 1 − ε )
=P(σ(α+logUlog(1U)τ)1ε) = P ( σ ( α + l o g U − l o g ( 1 − U ) τ ) ⩾ 1 − ε )

这里用的是逆哈函数,直接两边取逆函数,根据性质当原函数递增的时候,逆函数也递增。

=P(α+logUlog(1U)τlog(1ε1)) = P ( α + l o g U − l o g ( 1 − U ) τ ⩾ l o g ( 1 ε − 1 ) )
=P(eατlog(1ε1)(1U)U) = P ( e α − τ l o g ( 1 ε − 1 ) ⩾ ( 1 − U ) U )
=P(U11+eατlog(1ε1) = P ( U ⩾ 1 1 + e α − τ l o g ( 1 ε − 1 )
=σ(ατlog(1ε1)) = σ ( α − τ l o g ( 1 ε − 1 ) )

考虑到sigmoid function是四分之一的Lipschitz 连续并且单点递增,于是有
P(Dα=1)P(G(α,τ)1ε) P ( D α = 1 ) − P ( G ( α , τ ) ⩾ 1 − ε )
=σ(α)σ(ατlog(1ε1)) = σ ( α ) − σ ( α − τ l o g ( 1 ε − 1 ) )
(τ4)log(1ε1)(τ4)log(1ε) ⩾ ( τ 4 ) l o g ( 1 ε − 1 ) ⩾ ( τ 4 ) l o g ( 1 ε )

并且 P(Dα=1)P(G(α,τ)1ε)0 P ( D α = 1 ) − P ( G ( α , τ ) ⩾ 1 − ε ) ⩾ 0

τ τ 逼近0时候公式一,公式二再根据夹逼准则于,
P(limτ0+G(α,τ)=1)=P(Dα=1) P ( l i m τ − 0 + G ( α , τ ) = 1 ) = P ( D α = 1 )
P(limτ0+G(α,τ)=0)=P(Dα=0) P ( l i m τ − 0 + G ( α , τ ) = 0 ) = P ( D α = 0 )
于是Gumble函数近似二项分布

最终LSTM公式被修改成
it=G(Wxixt+Whiht1+bi,τ), i t = G ( W x i x t + W h i h t − 1 + b i , τ ) ,
ft=G(Wxfxt+Whfht1+bf,τ) f t = G ( W x f x t + W h f h t − 1 + b f , τ )
ot=σ(Wxoxt+Whoht1+bo) o t = σ ( W x o x t + W h o h t − 1 + b o )
zi=tanh(Wxzxt+Whzht1+bz)) z i = t a n h ( W x z x t + W h z h t − 1 + b z ) )
ct=ct1fi+ziit c t = c t − 1 ∗ f i + z i ∗ i t
ot=ottanh(ct) o t = o t ∗ t a n h ( c t )

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值