常见激活函数（Sigmoid、Tanh、Relu、Leaky Relu、Softmax）

最新推荐文章于 2025-04-11 23:36:11 发布

学技术的大胜嗷

最新推荐文章于 2025-04-11 23:36:11 发布

阅读量3.1w

点赞数 75

分类专栏：深度学习与机器学习文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/weixin_44115575/article/details/139835864

版权

深度学习与机器学习专栏收录该内容

22 篇文章

订阅专栏

一、激活函数的作用

激活函数是人工神经网络中一个关键的组成部分，它被设计用来引入非线性特性到神经网络模型中。
在神经网络的基本结构中，每个神经元接收输入信号，对其进行加权求和后加上偏置项，然后将这个结果通过激活函数进行转换，得到神经元的输出。
如果没有激活函数，无论神经网络有多少层，其输出都将仅仅是一个线性组合，这样的模型表达能力非常有限，无法解决复杂的非线性问题。

激活函数的作用可以总结为以下几点：

引入非线性：这是激活函数最重要的作用。由于大多数实际问题都是非线性的，非线性激活函数使得神经网络能够拟合复杂的函数映射关系，从而解决非线性问题。
控制神经元输出范围：不同的激活函数有不同的输出范围，比如Sigmoid函数的输出在(0, 1)之间，Tanh函数的输出在(-1, 1)之间，ReLU函数的输出在[0, ∞)之间。这些特性有助于控制神经元的输出，防止数值不稳定。
加速训练：某些激活函数（如ReLU）具有计算效率高的优点，因为它们的计算只涉及到基本的算术操作，而不需要昂贵的指数运算。
缓解梯度消失/爆炸问题：一些激活函数（如ReLU及其变种）被设计来避免梯度消失或梯度爆炸问题，这些问题在训练深度神经网络时尤为突出。

二、常见激活函数分析

1. Sigmoid

数学表达式为：

函数图像为：

导数为：

导数图像为：

在导数中当输入值为0时，sigmoid函数的导数达到最大值0.25；而输入在任一方向上越远离0点时，导数越接近0。

sigmoid优点

输出范围明确：Sigmoid函数的输出范围在0到1之间，非常适合作为模型的输出函数。用于输出一个0到1范围内的概率值，比如用于表示二分类的类别或者用于表示置信度。
便于求导：梯度平滑，便于求导，防止模型训练过程中出现突变的梯度。

sigmoid缺点

梯度消失：导函数图像中，sigmoid的导数都是小于0.25的，那么在进行反向传播的时候，梯度相乘结果会慢慢的趋向于0。这样几乎就没有梯度信号通过神经元传递到前面层的梯度更新中，因此这时前面层的权值几乎没有更新。
非零中心化输出：Sigmoid函数的输出不是以0为中心的，而是以0.5为中心。这意味着在训练过程中，输出值总是偏向正值，可能导致权重更新偏向于一个方向，会呈Z型梯度下降，影响学习效率。
饱和性：Sigmoid函数的饱和性导致其在输入值的极端情况下对输入变化不敏感，这限制了网络对极端值的学习能力。
计算资源消耗：Sigmoid函数涉及指数运算，这在计算上可能比其他一些激活函数（如ReLU）更加耗时。