激活函数（activation function)的种类与应用

最新推荐文章于 2025-01-29 14:02:26 发布

生信小兔

最新推荐文章于 2025-01-29 14:02:26 发布

阅读量4k

点赞数 5

分类专栏：机器学习基础深度学习基础文章标签：神经网络深度学习 python

本文链接：https://blog.csdn.net/weixin_60737527/article/details/124689224

版权

机器学习基础同时被 2 个专栏收录

20 篇文章

订阅专栏

深度学习基础

16 篇文章

订阅专栏

激活函数在逻辑回归、感知机、神经网络系列模型中有着重要的作用，是神经网络最重要的组成成分之一。如果把神经网络模型比作一台机器，那么激活函数就起着类似信号处理器的作用，把输入的数据进行处理然后准备输出。

在一般的神经网络中，激活函数负责把上一层输出的数据（一般是向量或矩阵）计算后的结果进行处理，得到新的一组数（即新的输出），对应就是下面蓝色与红色之间的直箭头部分。

例如，对与上面的三层神经元（一般会把蓝色和红色合并成一个节点，这里兔兔为了展示方便，画成两个圆）。我们以中间层为例。中间的左半部分三个蓝色是上一层计算得到的结果，每一个圆代表一个数，所以这一层左半部分的三个数可以用向量表示，即 $(x_{1} \ x_{2} \ x_{3})^{T}$ 。红蓝之间的激活函数为 $f(x)$ ,那么经过激活函数处理后得到的右边红色部分就是 $(f(x_{1}) \ f(x_{2}) \ f(x_{3}))^{T}$ , 对应右边三个圆。

一般在深度神经网络中把红色和蓝色是合并成一个节点，激活函数在层内进行。

激活函数的作用，一方面是因为如果没有激活函数的限制，数据逐层传递，最终数越来越大，类似爆炸一样，所以需要激活函数每次把结果限制在一定范围内；另一方面，激活函数起到类似神经元的作用，负责信号（或数据）的控制，来决定该神经元是否激活，从而使得模型学习效果更好。所以对于一个神经网络，选取合适的激活函数是十分重要的。

常见激活函数种类

（1)sigmoid激活函数

sigmoid函数形式为：

$sigmoid(x)=\frac{1}{1+e^{-x}}$

其导数为：

$sigmoid^{'}(x)=sigmoid(x)(1-sigmoid(x))$

函数图像如下：

sigmoid函数在神经网络中十分常用，它的定义域是R，输出在0~1之间，所以可以将预测概率作为输出模型；而且函数梯度平滑，避免跳跃的输出值；函数可微，能够求导；输出限定在0~1，因此它对每个神经元输出做了归一化。但是sigmoid函数缺点也比较明显，例如：随着神经网络层的增加，sigmoid 函数往往会导致梯度消失，此时模型效果就会不好；函数输出不是以0为中心，会在训练中降低权重更新的效率；该函数执行指数运算，计算机运行速度慢。

（2）Tanh(双曲正切）激活函数

这个函数在高等数学中比较常见，形式是 $th (x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$ 。在这里，我们把式子稍微处理一下，分子分母同时乘 $e^{x}$ ,再分离一下，就得到该激活函数的形式：

$Tanh(x)=\frac{2}{1+e^{-2x}}-1$

其导数为：

$Tanh^{'}(x)=1-Tanh^{2}(x)$

其函数图像如下：

Tanh函数与sigmoid函数很像，定义域也是R，但是它是以0为中心的，输出间隔为1，所以比sigmoid函数更具优势。但是当输入比较大或较小时，梯度很小，不利于权重的更新。在Tanh函数中，负数被强映射为负数，而0输入映射为0。在一般二元分类问题中，Tanh函数通常用于隐藏层中，sigmoid用于输出层中，有时也需要具体问题具体分析。

（3）ReLU激活函数

该函数是一个分段函数，当x大于等于0时函数为 $f(x)=x$ ，小于0时函数为 $f(x)=0$ 。所以该激活函数形式为：

$ReLU(x)=\begin{Bmatrix} max(x,0)&,x\geq 0\\ 0&,x<0\end{matrix}$

该函数的导数为：

$ReLU^{'}(x)=\begin{Bmatrix}1&,x\geq 0\\0&,x<0 \end{}$

其函数图像如下：

该函数在深度学习中应用比较广泛，目前较为流行，其优点为：输入为正数时，没有梯度饱和的情况，而且与前两个函数相比，该函数计算速度很快。但其缺点也比较明显：它是输出为0或正数，不是以0为中心的函数，就会出现和sigmoid 函数同样的问题；而且当输入为负数时，梯度变成了0，这个问题也称为Dead ReLU问题，在神经网络正向传播中该问题没有任何影响，但是在反向传播修正参数时，如果输入是负数，那么梯度为0，也就无法修正参数了。

（4）Leaky ReLU激活函数

针对上面的Dead ReLU问题，应用Leaky ReLU便可以解决。Leaky ReLU函数是一种专门设计用于解决 Dead ReLU问题的一种激活函数。

该函数的形式为：

$Leaky \ ReLU(x)=\begin{Bmatrix}x&,x> 0\\ax&,x\leq 0 \end{}$

该函数的导数为：

$Leaky \ ReLU^{'}(x)=\begin{Bmatrix}1&,x>0\\a&,x\leq0 \end{}$

其中a通常大于0小于1,函数图像如下：

这里兔兔是让a=0.2得到的图像，实际应用a通常为0.01作用。

由于该函数在小于0的情况下也有梯度，为a，所以解决了Dead ReLU问题。虽然从理论上来说，Leak ReLU函数具有ReLU所有优点，也不会出现Dead ReLU问题，但是实际应用中，我们并没有完全发现Leaky ReLU比ReLU效果更好。

（5）ELU激活函数

ELU激活函数也解决了ReLU问题，该函数形式为：

$ELU(x)=\begin{Bmatrix}x&,x>0\\a(e^{x}-1) &,x\leq 0\end{}$

该函数的导数为：

$ELU(x)=\begin{Bmatrix}1&,x>0\\ae^{x}&,x<0 \end{}$

函数图像为：

该函数具有很多的优点：ELU函数有负值，会使激活的平均值接近0，其梯度更接近自然梯度，从而可以使学习更快；而且该函数以0 为中心，输出平均值接近0；ELU在较小的输入下会饱和至负值，从而减少前向传播的变异信息。

（6）PReLU（Parametric ReLU）激活函数

该函数也是对ReLU的一种改进，函数形式为：

$PReLU(x)=\begin{Bmatrix}x&,x>0\\ \alpha x&,x\leq 0 \end{}$

函数导数为：

$PReLU^{'}(x)=\begin{Bmatrix}1&,x>0\\ \alpha&,x \leq 0 \end{}$

该函数图像与Leaky ReLU图像相同。

虽然PReLU在形式上与Leaky ReLU很像，当alpha在0~1之间就是Leaky ReLU函数，α=0时就变成了ReLU，但是该函数与前两者有本质区别：这里的alpha是未知的，是在模型训练中（如梯度下降）的过程中训练学习得到的参数，也就是说在模型训练过程中还要求函数对α的偏导。所以在PReLU中，α是可学习参数。

（7）softmax激活函数

softmax激活函数常用于多分类问题，例如用逻辑回归进行多分类，或是深度神经网络用于多分类问题等。该函数与前面的不同，它是一个多元函数，自变量为n个，输出也有n个，该函数的形式为：

$softmax(\textbf{x})=\frac{e^{\mathbf{x}}}{\sum _{i=1}^{n}e^{x_{i}}}$

这里x为列向量 $(x_{1} \ x_{2} \ ...\ x_{n} )^{T}$ ,xi表示第i个自变量。 $e^{\mathbf{x}}=(e^{x_{1}} \ e^{x_{2}} \ ... \ e^{x_{n}})^{T}$ , $\sum_{i=1}^{n}e^{x_{i}}=e^{x_{1}}+e^{x_{2}}+...+e^{x_{n}}$ 。所以softmax也可以表示如下：

$softmax(\mathbf{x})=\begin{pmatrix}softmax(x_{1}) \\softmax(x_{2})\\...\\softmax(x_{n})\end{}_{1\times n}=\begin{pmatrix}\frac{e^{x_{1}}}{\sum_{i=1}^{n}e^{x_{i}}} \\ \frac{e^{x_{2}}}{\sum_{i=1}^{n}e^{x_{i}}}\\...\\\frac{e^{x_{n}}}{\sum_{i=1}^{n}e^{x_{i}}}\end{}_{1\times n}$

该函数的导数为：

$softmax^{'}(\mathbf{x})=softmax(\textbf{x})\circ (1-softmax(\textbf{x}))$

或者表示为：

$\begin{pmatrix}softmax(x_{1})(1-softmax(x_{1}))\\softmax(x_{2})(1-softmax(x_{2}))\\...\\softmax(x_{n})(1-softmax(x_{n})) \end{}$

其中 $\circ$ 表示哈达玛积，为矩阵或向量对应位置元素相乘，符号也可以用 $\odot$ 表示。导数推导过程可以用上面右侧向量中每一个 $\frac{e^{x_{i}}}{\sum_{i=1}^{n}e^{x_{i}}}$ 对xi求偏导，求导结果放在对应的向量第i行，最终整理简化就是上面的结果。

兔兔以2个自变量为例，图像如下图所示：

自变量x1,x2对应x轴、y轴，z1,z2对应两个曲面，softmax函数得到的所有值的和为1。

softmax函数分母结合了原始输出值的所有因子，所有softmax函数获得的各种概率值是彼此相关的。softmax的缺点为：负输入的梯度为0，这样就会出现在反向传播中权重不会更新，也就是产生永不激活的死亡神经元，类似于ReLU的Dead ReLU问题。

（8）Swish激活函数

该函数的形式为：

$Switch(x)=x.sigmoid(x)$

该函数的导数为：

$Swish^{'}(x)=sigmoid(x)+x.sigmoid^{'}(x)\\=sigmoid(x)+x.sigmoid(x)-x.sigmoid^{2}(x)$

函数图像为：

Swish函数设计受LSTM和高速网络中gating的sigmoid函数的启发，该函数优点为：无界性，有助于防止慢速训练期间梯度接近0并导致饱和；函数的平滑度在优化和泛化中起到重要作用。

（9）softplus激活函数

该函数的形式为：

$softplus(x)=ln(1+e^{x})$

函数导数为：

$softplus^{'}(x)=sigmoid(x)$

函数图像为：

该函数类似于ReLU，但是比较平滑，与ReLU一样有单侧抑制。

（10）Step Function激活函数

这个就是高数中常见的阶跃函数，该函数形式为：

$Step \ Function(x)=\begin{Bmatrix} 1&,x\geq 0\\0&,x<0\end{}$

导数始终是0。

图像如下所示：

由于该函数导数是0，所以在反向传递中很不利于参数更新。

（11）softsign激活函数

该函数的形式为：

$softsign(x)=\frac{x}{1+|x|}$

函数导数为：

$softsign^{'}(x)=\begin{Bmatrix}\frac{1}{(1+x)^{2}} &,x\geq 0\\\frac{1}{(1-x)^{2}}&,x<0\end{}$

函数图像如下：

(12)Log of sigmoid 激活函数

该函数的形式为：

$Log \ of \ sigmoid =ln(sigmoid(x))$

即sigmoid 函数的对数。导数为：

$Log \ of \ sigmoid^{'}(x)=\frac{sigmoid^{'}(x)}{sigmoid(x)}\\=1- sigmoid(x)$

函数图像如下：

（13）sinc激活函数

该激活函数形式为：

$sinc(x)=\frac{sin(x)}{x}$

导数为：

$sinc^{'}(x)=\frac{x.cos(x)-sin(x)}{x^{2}}$

函数图像：

（14）Mish激活函数

该激活函数的形式为：

$Mish(x)=x.(Tanh(softplus(x)))$

函数导数为：

$Mish^{'}(x)=Tanh(softplus(x))+x.(Tanh^{'}(softplus(x)).softplus^{'}(x))$

函数图像为：

（15）Maxout激活函数

关于Maxout函数，其实是比较特殊的。前面的所有激活函数都是在神经元层内进行，并且激活函数处理前后数的个数的不变的，就像文章前面图画的那样，红色与蓝色个数是相同的。而Maxout函数是改变了处理前后的数的个数，其原因是在神经元层内又加了一层神经元，如果原来的神经元是隐层，那么Maxout函数就是在这个隐层中加入隐隐藏层。所以更准确来说，Maxout更像是神经元的一种连接方式，如全连接、卷积、池化等，但是又有着激活函数的特点，有点儿介于神经元连接方式与激活函数之间，所以兔兔之后会把Maxout激活函数作为一种连接方式单独讲解。

其它激活函数

激活函数的种类是非常多的，上面的15种是比较常用的，其它的激活函数还有SELU、Tanhshrink、Hardshrink、Softshrink、E-Swish、Hardtanh、GELU、CELU、ReLU6、Aria-2、RReLU、SQNL、Bent's Identity、Hard ELish、Soft Clipping、LeCun's Tanh、SineReLU、Flatten T-Swish、ISRU、Weighted Tanh、ELish、ISRLU、SReLU、Hard Sigmoid、Threshold ReLU......感兴趣的同学可以进一步拓展，搜索更多的激活函数种类与形式，并能够根据激活函数推导出导数。

应用方法

如果要真正了解这些激活函数的使用，是需要搭建具体的神经网络模型的，这样才能够体会不同激活函数的使用的。在这里兔兔仅仅大概介绍一下使用方法。

前面讲到了，Maxout激活函数比较特殊，需要单独讲解。其它的14种中只有softmax激活函数比较特殊: 除了softmax函数，其它函数都是一元函数，即输入是1个，输出是1个，而对于某一层的n个神经元 $(x_{1} \ x_{2} \ ... \ x_{n})^{T}$ ，激活函数为f(x),那么激活函数的计算过程为：

$\begin{pmatrix}x_{1}\\x_{2}\\...\\x_{n} \end{}\rightarrow f(\textbf{x})\rightarrow \begin{pmatrix}f(x_{1})\\f(x_{2}) \\...\\f_(x_{n})\end{}$

一般的激活函数都是按照上面的过程来进行计算，而且x1,x2...xn之间没有什么关联。对于softmax函数则不同，它的计算综合了x1到xn各个值，计算过程为：

$\begin{pmatrix}x_{1}\\x_{2}\\...\\x_{n} \end{}\rightarrow f(\textbf{x})\rightarrow \begin{pmatrix} \frac{e^{x_{1}}}{\sum_{i=1}^{n}e^{x_{i}}}\\\frac{e^{x_{2}}}{\sum_{i=1}^{n}e^{x_{i}}}\\...\\\frac{e^{x_{n}}}{\sum_{i=1}^{n}e^{x_{i}}}\end{}$