论文笔记 (GAUSSIAN ERROR LINEAR UNITS (GELUS))

本文介绍了GELU激活函数,它结合了非线性和输入数据分布依赖的随机正则化。GELU在神经网络中表现优于ReLU和ELU,尤其在各种实验如MNIST分类、自然语言处理任务中展示出更好的稳健性和适应性。GELU的特性包括其非凸、非单调的性质,以及在正域内的非线性曲率,使其能更好地表达复杂函数。
摘要由CSDN通过智能技术生成

一、介绍(introduce)

我们都知道激活函数可以避免网络形成深度线性分类器,在前人的研究上,随机正则化与激活函数(非线性)共同决定一个神经元的输出,而且,两者都不包含另一种,因为流行的随机正则化器分别与输入无关,而非线性得到了这些正则化器的帮助。

GeLU激活函数的最大特点是将非线性与依赖输入数据分布的随机正则化器相结合在一个激活函数的表达中.

二、方法(method)

在分析方法之前,相信很多新手对正太分布的概念有点模糊,我先补充下正太分布的概念

 

 第一个图的u1=0,\sigma1=1,第二张图 u2=19,\sigma2=4,两张图虽然形状一样,但是u和\sigma都不相同,把两张图片结合起来看,从第三张图片可以瞧出,u用来确定位置,\sigma确定形状。 \sigma越小数据越集中,\sigma越大数据越分散.对于第一张图,若x~N(u1=0,\sigma1=1) 时,P(x<0) = 50%

ReLU和dropout都产生一个神经元的输出,ReLU确定地将输入乘以0或1,dropout随机乘以零。zoneout 随机将输入乘以1。GeLU可以看做是ReLU、zoneout、dropout的一个综合。GELU也会为inputs乘以0或者1,但不同于以上的或有明确值或随机,GELU所加的0-1mask的值是随机的,同时是依赖于inputs的分布的

将input x 乘以一个服从伯努利分布的m。而该伯努利分布又是依赖于输入Input x的。

m∼Bernoulli(Φ(x)),whereΦ(x)=P(X<=x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值