2.6.3 GELU激活函数原理及代码

最新推荐文章于 2025-03-26 19:52:37 发布

YANQ662

最新推荐文章于 2025-03-26 19:52:37 发布

阅读量737

点赞数 1

分类专栏： 1.Yolov5解释文章标签：深度学习人工智能机器学习 YOLO pytorch

本文链接：https://blog.csdn.net/weixin_71719718/article/details/132241290

版权

1.Yolov5解释专栏收录该内容

14 篇文章

订阅专栏

本文介绍了GELU激活函数的原理，它相较于ReLU在处理梯度消失和可导性上有优势。通过近似公式实现，GELU在非线性变换中引入类似sigmoid的效果，有助于模型收敛。提供了GELU在PyTorch中的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、原理

$GELU=x\ast P(X\leqslant x)=x\ast \Phi (x),x\sim N(0,1)$ ,其实就是x乘以标准正态分布的分布函数，这个积分公式不好计算，所以近似等于下面的公式：

$GELU=0.5\ast x(1+tanh[\sqrt{\frac{\pi }{2}}(x+0.047715x^{3})])$

几个激活函数的对比如下图：

由上图可知：GELU激活函数具有以下优点：

1.与RELU相比，函数不会对所有小于等于0的x一视同仁全取为0，全取为0后会导致导数恒等于0，从而导致梯度消失，从而GELU激活函数消除了梯度消失的问题。

2.在x=0处，RELU激活函数不可导，而GELU激活函数在x=0处是光滑的曲线，是可导的。

3.GELU函数在激活函数的非线性变换中引入了类似于sigmoid函数的变换，这使得GELU函数的输出可以落在一个更广的范围内，有助于加速模型的收敛速度。

二、代码

具体代码如下：

#   Gelu激活函数的实现
#   利用近似的数学公式
#--------------------------------------#
class GELU(nn.Module):
    def __init__(self):
        super(GELU, self).__init__()

    def forward(self, x):
        return 0.5 * x * (1 + torch.tanh(np.sqrt(2 / np.pi) * (x + 0.044715 * torch.pow(x,3))))