神经网络激活函数的理解以及激活函数的用法-CSDN博客

本文链接：https://blog.csdn.net/xiaomifanhxx/article/details/82828548

本文深入探讨激活函数在神经网络中的作用，包括sigmoid、tanh、ReLU和softmax等常见类型，分析其特性、优缺点及应用场景，指导如何选择合适的激活函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.什么是激活函数

激活函数就是在神经元中，输入的input经过加权，求和后被应用于一个函数，这个函数就是激活函数：Activation Function,如下图所示：

2.为什么使用激活函数

如果不使用激活函数，我们的每一层输出只是承接了上一层输入函数的线性变换，无论神经网络有多少层，输出都是输入的线性组合。如果使用的话，激活函数给神经元引入了非线性的因素，使得神经网络可以逼近任何非线性函数，这样神经网络就可以应用到非线性模型中。

3.激活函数

3.1激活函数类型

激活函数有:sigmoid 函数，tanh函数，Relu函数，softmax函数

3.2激活函数的介绍

3.2.1 sigmoid函数

公式：

曲线：

sigmoid函数也叫Logistic函数，用于隐藏层的输出，输出在(0,1)之间，它可以将一个实数映射到(0,1)的范围内，可以用来做二分类。常用于:在特征相差比较复杂或是相差不是特别大的时候效果比较好。

sigmoid函数的缺点:1)激活函数的计算量大，反向传播求误差梯度时，求导涉及到除法。2)反向传播的时候，很容易出现梯度消失的情况，从而无法完成深度神经网络的训练；

3.2.1.1为什么Sigmoid函数会出现梯度下降？

反向传播算法中，要对激活函数求导，sigmoid的导数表达式为：

sigmoid原函数及导数图形如下:

由图可知，导数从0开始，很快就又趋近于0，所以很容易造成梯度下降时出现“梯度消失”。

3.2.2 Tanh函数

公式：

曲线:

tanh曲线:也称为双切正切曲线，取值范围为[-1,1],tanh在特征相差明显的时候效果会好，在循环过程中，会不断的扩大特征效果，与Sigmoid函数相比，tanh是0均值的，因此实际应用中，tanh要比sigmoid函数更好。

3.2.3 Relu函数

公式：

曲线:

由上图可以看到：输入信号<0时，输出都是0，输入信号>0时，输出等于输入。

RELU函数：使用Relu函数得到的SGD的收敛速度会比tanh/sigmoid函数快很多。

RELU的缺点:训练的时候很脆弱，很容易就‘die’了，例如：一个非常大的梯度流过一个Relu神经元，更新过参数后，这个神经元不会对任何数据有激活现象了，那么这个神经元的梯度就永远都会是0了。如果learningRate很大，那么很有可能网络中%40的神经元都‘die’了。

3.2.4 softmax函数

Softmax-用于多分类神经网络的输出

公式：

案例：

如果某一个zj大过其他zk，那么这个映射的分量就逼近于1，反而就逼近于0，主要应用于多分类。

为什么取指数？1):为了模仿max的行为，使得值大的经过映射后值更大;2):需要一个求导函数

4 sigmoid函数，Relu函数，softmax函数的区别

Sigmoid与Relu函数比较：

Sigmoid函数发生梯度消失问题，Relu就不存在这样的问题，它的导数表达式为:

曲线如图所示:

对比于sigmoid函数相比：1):单侧抑制;2):相对宽阔的兴奋区域;3):稀疏激活性

sigmoid和softmax函数

sigmoid将一个real value映射到(0,1)的区域，用来做二分类

而softmax是将一个k维的real value向量(a1,a2...ak)映射成一个(b1,b2...bk)，其中bi是一个在(0,1)的常数，输出的神经元之和为1，所以相当于概率值，可以通过bi的概率的大小来做多分类。

在二分类的时候，softmax和sigmoid函数是一样的，都是求解cross entropy loss，而softmax是可以用来多分类的。softmax是sigmoid函数的扩展，因为当类别为2时，softmax回归退化为sigmoid回归，具体来说，当k=2时，softmax回归的假设函数为：