论文笔记（GAUSSIAN ERROR LINEAR UNITS (GELUS)）

最新推荐文章于 2024-10-05 08:32:40 发布

nlp新手

最新推荐文章于 2024-10-05 08:32:40 发布

阅读量878

点赞数 3

文章标签：神经网络深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_44054052/article/details/120621486

版权

本文介绍了GELU激活函数，它结合了非线性和输入数据分布依赖的随机正则化。GELU在神经网络中表现优于ReLU和ELU，尤其在各种实验如MNIST分类、自然语言处理任务中展示出更好的稳健性和适应性。GELU的特性包括其非凸、非单调的性质，以及在正域内的非线性曲率，使其能更好地表达复杂函数。

摘要由CSDN通过智能技术生成

一、介绍（introduce）

我们都知道激活函数可以避免网络形成深度线性分类器，在前人的研究上，随机正则化与激活函数（非线性）共同决定一个神经元的输出，而且，两者都不包含另一种，因为流行的随机正则化器分别与输入无关，而非线性得到了这些正则化器的帮助。

GeLU激活函数的最大特点是将非线性与依赖输入数据分布的随机正则化器相结合在一个激活函数的表达中.

二、方法（method）

在分析方法之前，相信很多新手对正太分布的概念有点模糊，我先补充下正太分布的概念

第一个图的u1=0， $\sigma$ 1=1,第二张图 u2=19， $\sigma$ 2=4，两张图虽然形状一样，但是u和 $\sigma$ 都不相同，把两张图片结合起来看，从第三张图片可以瞧出，u用来确定位置， $\sigma$ 确定形状。 $\sigma$ 越小数据越集中， $\sigma$ 越大数据越分散.对于第一张图，若x~N(u1=0, $\sigma$ 1=1) 时,P(x<0) = 50%

ReLU和dropout都产生一个神经元的输出，ReLU确定地将输入乘以0或1，dropout随机乘以零。zoneout 随机将输入乘以1。GeLU可以看做是ReLU、zoneout、dropout的一个综合。GELU也会为inputs乘以0或者1，但不同于以上的或有明确值或随机，GELU所加的0-1mask的值是随机的，同时是依赖于inputs的分布的。

将input x 乘以一个服从伯努利分布的m。而该伯努利分布又是依赖于输入Input x的。

m∼Bernoulli(Φ(x)),whereΦ(x)=P(X<=x