常用激活函数总结与发展历程

最新推荐文章于 2025-03-27 17:53:42 发布

置顶 _,_

最新推荐文章于 2025-03-27 17:53:42 发布

阅读量2.9k

点赞数 5

分类专栏：神经网络

本文链接：https://blog.csdn.net/xspyzm/article/details/103512188

版权

神经网络专栏收录该内容

8 篇文章

订阅专栏

本文深入讲解激活函数在神经网络中的作用，包括Sigmoid、tanh、ReLU及其变种等常用激活函数的优缺点，以及Maxout、Swish、Mish等新兴激活函数的特性。通过对比分析，帮助读者理解如何选择合适的激活函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、什么是激活函数

神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值，并将输入值加权求和后传递给下一层，在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数（又称激励函数）。

二、激活函数的作用——为什么要使用激活函数

没有激活函数，无论神经网络有多少层，输出都是输入的线性组合。

激活函数给神经元引入了非线性因素，使得神经网络可以逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

正因为上面的原因，为神经网络引入非线性函数的激活函数，才可以充分发挥层叠加所带来的优势，以逼近任意函数。

三、常用的激活函数及发展历程

1.Sigmoid ——

最早的激活函数，图像如下图所示：

sigmoid的优点

1.输出值有限，在0-1之间,有限输出使得对一些比较大的输入也有较平稳的表现

2.函数光滑可微，导数计算方便

sigmoid的缺点

1.涉及指数的计算，运算量大，速度较慢

2.存在非线性饱和区，容易在反向传播时引起梯度消散（可用batch normalization的方法缓解）

3.输出都是正值，会导致梯度下降出现锯齿形晃动，降低梯度下降速度（可用batch normalization 的方法缓解）

关于出现锯齿形晃动的原因，是因为在用梯度下降做反向传播时，损失函数对参数的求导会有一项是z=w*x+b对w的求导，得到的结果就是x，如果上层输出全是正值，那么求得的梯度符号就全为正或全为负，正负值取决于剩下的项，这样就会使梯度更新的方向为（+，+）或（-，-）（对于参数是二元的情况），这样的话如果正确的梯度下降方向是（+，-）的话，参数在更新时就不会沿着正确的方向更新，而是以锯齿状逼近最优解，使算法收敛速度变慢。其图形化表示如下图所示：

2.tanh ——

tanh是1991年提出的激活函数，也是最早的激活函数之一，图像如下图：

tanh的优点

1. 函数光滑可微，导数计算方便

2. 输出值 0 中心对称，稳定在 [-1, 1]

3. 具有在 0 附近梯度较大，有利于区别小的特征差异

tanh的缺点

1. 涉及指数的计算，运算量大，速度较慢

2. 存在非线性饱和区，容易在反向传播时引起梯度消散，但比 sigmoid 要轻（sigmoid的导数最大是0.25，tanh是1）

3.Relu ——

从提出到现在最常用的激活函数之一。

Relu的优点

1. 解决了梯度消散问题 ( 在正区间 )

2. 计算简单且速度非常快，只需要判断输入是否大于 0

3. 收敛速度远快于 sigmoid 和 tanh

Relu的缺点

1. ReLU 的输出都是非负值

2. 某些神经元可能永远不会被激活，相应的参数永远不能被更新（两种原因导致：不幸的参数初始化和学习率较高导致在训练过程中参数更新太大越过最优值落入死亡区）（解决办法：使用Xavier初始化方法，使用较小的学习率）

尽管存在上述两个缺点，relu仍是目前最常用的激活函数，在做神经网络应用时仍推荐优先尝试

4. Relu的变种——Softplus, Leaky Relu, RRelu, PRelu, Elu, Selu

由于relu的良好特性，针对它的缺点，人们提出了很多它的变种：

softplus和relu的图像对比，softplus可以看作relu的平滑版：

softplus是2010年提出的激活函数，根据神经科学家的相关研究，Softplus和ReLu与脑神经元激活频率函数有神似的地方。也就是说，相比于早期的激活函数，Softplus和ReLu更加接近脑神经元的激活模型，而神经网络正是基于脑神经科学发展而来，这两个激活函数的应用促成了神经网络研究的新浪潮。

lrelu和prelu的对比：