一、介绍(introduce)
我们都知道激活函数可以避免网络形成深度线性分类器,在前人的研究上,随机正则化与激活函数(非线性)共同决定一个神经元的输出,而且,两者都不包含另一种,因为流行的随机正则化器分别与输入无关,而非线性得到了这些正则化器的帮助。
GeLU激活函数的最大特点是将非线性与依赖输入数据分布的随机正则化器相结合在一个激活函数的表达中.
二、方法(method)
在分析方法之前,相信很多新手对正太分布的概念有点模糊,我先补充下正太分布的概念
第一个图的u1=0,1=1,第二张图 u2=19,2=4,两张图虽然形状一样,但是u和都不相同,把两张图片结合起来看,从第三张图片可以瞧出,u用来确定位置,确定形状。 越小数据越集中,越大数据越分散.对于第一张图,若x~N(u1=0,1=1) 时,P(x<0) = 50%
ReLU和dropout都产生一个神经元的输出,ReLU确定地将输入乘以0或1,dropout随机乘以零。zoneout 随机将输入乘以1。GeLU可以看做是ReLU、zoneout、dropout的一个综合。GELU也会为inputs乘以0或者1,但不同于以上的或有明确值或随机,GELU所加的0-1mask的值是随机的,同时是依赖于inputs的分布的。
将input x 乘以一个服从伯努利分布的m。而该伯努利分布又是依赖于输入Input x的。
m∼Bernoulli(Φ(x)),whereΦ(x)=P(X<=x