常用激活函数（Activation Function）

最新推荐文章于 2025-03-27 17:53:42 发布

yeqiang19910412

最新推荐文章于 2025-03-27 17:53:42 发布

阅读量2.1k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/yeqiang19910412/article/details/74455649

版权

深度学习专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了三种常见的激活函数：Sigmoid、tanh 和 ReLU 的定义、特性及其优缺点，并对比了它们在神经网络中的表现。此外，还提到了一些其他的激活函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Sigmoid函数

Sigmoid函数定义如下：

其图形如下：

Sigmoid 函数优点很多：
1.作为 Activation Function，它是单调递增的，能够很好地描述被激活的程度;
2.Sigmoid 能将( $-\infty,+\infty$ )转换为(0,1)，避免数据在传递过程中太过发散，同时输出还能被理解成某种概率;
3.Sigmoid 在定义域内处处可导，而且导数很好算。 $f^{\prime}(x)=f(x)(1-f(x))$ ，图形如下，可以看出 $f^{\prime}(x)<1$

但是，Sigmoid 的导数也带来了一些问题。当 DNN 比较深的时，较前层的参数求出的梯度会非常小，几乎不会再更新，这种现象被称为梯度消失（Gradient Vanish）。

tanh函数

tanh函数是sigmoid函数的变形，tanh函数定义如下：

tanh (x) = 2 σ (2 x) - 1

$\tanh \left( x\right) =2\sigma \left( 2x\right) -1$

其图形如下：

在具体应用中，tanh函数相比于Sigmoid函数往往更具有优越性，这主要是因为Sigmoid函数在输入处于[-1,1]之间时，函数值变化敏感，一旦接近或者超出区间就失去敏感性，处于饱和状态，影响神经网络预测的精度值。而tanh函数的输出和输入能够保持非线性单调上升和下降关系，符合BP网络的梯度求解，容错性好，有界，渐进于0、1，符合人脑神经饱和的规律，但比sigmoid函数延迟了饱和期。

ReLU函数

为了缓解 Gradient Vanish 现象，现在大家都会使用 ReLU（Rectified Linear Unit），其定义如下:

对应的图形如下:

ReLU 除了具有 Sigmoid 函数大部分的优点外，还有

1.对某个神经元，当x>0时，其导数为1，因而缓解了 Gradient Vanish 现象；
2.对某个神经元，当x<0时，其输出也是0，也就是对后续的网络不起作用，可以看作从网络中被移除了。因此在整个训练过程结束后，整个网络会呈现出一种稀疏的状态，也就是会有很多的神经元由于在网络中不起作用，可以当成不存在。这种稀疏也表明 ReLU 对避免网络过拟合有一定作用。

同时，ReLU 也有自己的缺陷：

1.可以看出当x<0时，不仅输出为0，ReLU 的导数也为0。即对应的参数不再更新。因此这个神经元再也没有被激活的机会了，这种现象被称为dying ReLU；
2.第二个现象叫 Bias shift。在将数据输入 DNN 时我们一般会进行高斯归一，但是由于 ReLU 的输出恒大于0，会导致后续层输出的数据分布发生偏移。对于很深的网络，这可能会导致无法收敛。

其他
Activation Function针对不同的任务中有不同的选择，还有一些其它的 Activation Function 比如 Maxou、ELU 等。

参考文献：