机器学习笔记-神经网络中激活函数（activation function）对比--Sigmoid、ReLu，tanh

最新推荐文章于 2022-10-04 09:24:35 发布

老三是只猫

最新推荐文章于 2022-10-04 09:24:35 发布

阅读量5.2k

点赞数 3

分类专栏：深度学习算法

深度学习算法专栏收录该内容

45 篇文章 1 订阅

订阅专栏

为什么激活函数是非线性的？

如果不用激励函数（相当于激励函数是f(x)=x），在这种情况下，每一层的输出都是上一层的线性函数，无论神经网络有多少层，输出都是输入的线性组合，这与一个隐藏层的效果相当（这种情况就是多层感知机MPL）。

但当我们需要进行深度神经网络训练（多个隐藏层）的时候，如果激活函数仍然使用线性的，多层的隐藏函数与一层的隐藏函数作用的相当的，就失去了深度神经网络的意义，所以引入非线性函数作为激活函数。

对比激活函数Sigmoid、ReLu，tanh

Sigmoid函数

在这里插入图片描述

Sigmoid函数是深度学习领域开始时使用频率最高的激活函数，它是便于求导的平滑函数，能够将输出值压缩到0-1范围之内。

在这里插入图片描述

但是Sigmoid函数有3大缺点：

容易出现梯度消失

优化神经网络的方法是Back Propagation，即导数的后向传递：先计算输出层对应的loss，然后将loss以导数的形式不断向上一层网络传递，修正相应的参数，达到降低loss的目的。但当x较大或较小时，导数接近0；并且Sigmoid函数导数的最大值是0.25，导数在每一层至少会被压缩为原来的1/4。正是因为这两个原因，从输出层不断向输入层反向传播训练时，导数很容易逐渐变为0，使得权重和偏差参数无法被更新，导致神经网络无法被优化。

输出不是zero-centered

Sigmoid函数的输出值恒大于0，假设后层的输入都是非0的信号，在反向传播过程中，weight要么是都往正方向更新，要么都往负方向更新，按照图中所示的阶梯式更新，并非好的优化路径，计算量较大，模型收敛的速度减慢。

幂运算相对耗时

相对于前两项，这其实并不是一个大问题，我们目前是具备相应计算能力的，但之后我们会看到，在ReLU函数中，计算机需要做的仅仅是一个thresholding，相对于幂运算来讲会快很多。

tanh函数

在这里插入图片描述

优点
全程可导；输出区间为-1到1；解决了zero-centered的输出问题。

缺点
梯度消失的问题和幂运算的问题仍然存在。

ReLU函数

ReLU函数(Rectified Linear Units)其实就是一个取最大值函数，注意这并不是全区间可导的，但是我们可以取次梯度(subgradient)。

![在这里插入图片描述](https://img-blog.csdnimg.cn/20190704140902298.png)![在这里插入图片描述](https://img-blog.csdn.net/20170903160414410)

优点
- 解决了梯度消失的问题 (在正区间)
- 计算速度非常快，只需要判断输入是否大于0
- 收敛速度远快于sigmoid和tanh
- Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生
缺点
- 输出不是zero-centered
- Dead ReLU Problem
  Dead ReLU Problem指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化，这种情况比较少见 (2) 学习速率太高导致在训练过程中参数更新太大，不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法，以及避免将学习速率设置太大或使用adagrad等自动调节学习速率的算法。

尽管存在这两个问题，ReLU目前仍是最常用的激活函数。

现在也有一些对relu的改进，比如prelu，random relu等，在不同的数据集上会有一些训练速度上或者准确率上的改进，在此就不展开讨论了。

老三是只猫

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记-神经网络中激活函数（activation function）对比--Sigmoid、ReLu，tanh

为什么激活函数是非线性的？如果不用激励函数（相当于激励函数是f(x)=x），在这种情况下，每一层的输出都是上一层的线性函数，无论神经网络有多少层，输出都是输入的线性...
复制链接

扫一扫