激活函数总结

_森罗万象

已于 2023-01-11 21:55:32 修改

阅读量427

点赞数

分类专栏：学习笔记文章标签：人工智能算法激活函数神经网络

于 2022-10-12 22:07:37 首次发布

本文链接：https://blog.csdn.net/weixin_52812620/article/details/127291807

版权

学习笔记专栏收录该内容

52 篇文章 1 订阅

订阅专栏

参考 Activation Functions Explained - GELU, SELU, ELU, ReLU and more

文章目录

1.sigmoid
2.relu
3.elu
4.leaky relu
5.数值稳定

1.sigmoid

$s i g m o i d$ 是一个 $l o g i s t i c$ 非线性函数，即不管输入是什么，得到的输出都在区间 $(0, 1)$ ：
$sigmoid(x)=\frac{1}{1+e^{-x}}$

假设前向传播时为：
$z^{(L)}=w^{(L)}\times a +b\\ a^{(L)}=\sigma(z^{(L)})\\ C=(a^{(L)}-y)^2$
那么反向传播的梯度将是：
$\frac{\partial C}{\partial w^L}=\frac{\partial C}{\partial a^L}\frac{\partial a^L}{\partial z^L}\frac{\partial z^L}{\partial w^L}$
其中：
$\frac{\partial a^L}{\partial z^L}=\sigma'(w\times a^{L-1}+b)\\ \sigma'(x)=\sigma(x)(1-\sigma'(x))$
$\sigma'(x)$ 的值在 $[0, 0.25]$ ，而多个小于 $0$ 的数连乘将会导致梯度消失，每个权重更新得都会很慢，有时导致训练不会有任何进展

假设单个神经元串成一条线，最后产生输出，当 $b_1$ 发生变化时：
$a_1=\sigma (z_1)=\sigma (w_1a_0+b_1)\\ \frac{\partial a_1}{\partial b_1}=\frac{\partial \sigma (z_1)}{\partial b_1}\\ \Delta a_1\approx \frac{\partial \sigma (w_1a_0+b_1)}{\partial b_1}\Delta b_1=\sigma'(z_1)\Delta b_1\\ z_2=w_2a_1+b_2\\ \Delta z_2\approx \frac{\partial z_2}{\partial a_1}\Delta a_1=w_2\Delta a_1=w_2\sigma'(z_1)\Delta b_1\\ ...\\ C=w_2\sigma'(z_1)w_3\sigma'(z_2)w_3\sigma'(z_4)...\frac{\partial C}{\partial a}\Delta b_1\\ \frac{\partial C}{\partial b_1}=w_2\sigma'(z_1)w_3\sigma'(z_2)w_3\sigma'(z_4)...\frac{\partial C}{\partial a_L}$
当 $w_1,w_2,...w_L$ 比较大的时候，连乘将导致梯度爆炸，网络将收敛不到合适的值，有时甚至超出计算机数值表示范围产生 $in f$ 或者 $nan$ ，同时使学习率的调整十分敏感，有一些方法可以缓解，比如梯度裁剪等

2.relu

$re l u (x) = ma x (x, 0)$

梯度要么是 $0$ ，要么是 $1$ ，如果某个梯度为 $0$ ：
$\frac{\partial C}{\partial b_1}=w_2\sigma'(z_1)w_3\sigma'(z_2)w_3\sigma'(z_4)...\frac{\partial C}{\partial a_L}$
整个梯度将会是 $0$ ，此时 $b_1$ 将不会更新，称为 $re l u$ 死亡，此时梯度将会比较稀疏，空间和时间方面将更有效率，因此使用 $re l u$ 作为激活函数时：

能够避免梯度消失（最后梯度不是 $0$ 就是 $1$ ，不会得到接近 $0$ 的非 $0$ 数），但不能避免梯度爆炸
引入了稀疏性

3.elu

$e l u$ 修补了 $re l u$ 的一些问题，而且保留了一些它好的性质：
$elu(x)=\begin{cases} x &\text{if\ x>0}\\ \alpha(e^x-1)&\text{if\ x<0} \end{cases}$
大于 $0$ 的部分和 $re l u$ 一致，小于 $0$ 的部分改动了，保留了避免梯度消失的性质：
$elu'(x)=\begin{cases} 1 &\text{if\ x>0}\\ elu(x)+\alpha&\text{if\ x${\le}$ 0} \end{cases}\ =\ \begin{cases} 1 &\text{if\ x>0}\\ \alpha e^x&\text{if\ x${\le}$ 0} \end{cases}$
使用 $e l u$ 作为激活函数：

避免了死亡 $re l u$ 问题
能够产生负输出，输出均值接近 $0$ ，加速收敛
激活值更平滑，而不是很多 $0$
较 $re l u$ 计算复杂度更高且也不能避免梯度爆炸
引入参数 $\alpha$

4.leaky relu

$leaky\ relu$ 相较 $e l u$ 有一些缺陷，较 $re l u$ 有一些优势：
$lrelu(x)=\begin{cases} x &\text{if\ x>0}\\ \alpha x&\text{if\ $x\le0$} \end{cases}\\ lrelu'(x)=\begin{cases} 1 &\text{if\ x>0}\\ \alpha&\text{if\ $x\le0$} \end{cases}$
使用 $leaky\ relu$ 作为激活函数：