激活函数+++

最新推荐文章于 2024-06-07 10:42:49 发布

小猪猪爱吃饭

最新推荐文章于 2024-06-07 10:42:49 发布

阅读量100

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_45639117/article/details/120396809

版权

文章目录

1、sigmod

1.1 公式

1.2导数

1.3优缺点

优点：在特征比较复杂或者相差不是很大时效果较好；可以用于二分类
缺点：计算量大；反向传播求梯度时涉及除法；反向传播时容易出现梯度消失的情况，函数收敛缓慢。

1.4梯度消失的原因

对激活函数进行求导 $f^{'}_x$ ,如果此部分大于1，那么层数增多的时候，最终的求出的梯度更新将以指数形式增加，即发生梯度爆炸，如果此部分小于1，那么随着层数增多，求出的梯度更新信息将会以指数形式衰减，即发生了梯度消失.

2、tanh

2.1公式

$tanh(x)=2sigmod(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

2.2求导

$tanh^{'}(x)=1-(tanh(x))^2$

2.3优缺点

优点：在特征相差明显时效果很好，在循环过程中会不断扩大特征效果，且因为 $t a n h$ 是0均值，所以实际效果比 $s i g m o d$ 好，几乎适合所有的场景。

缺点：该导数在正负饱和区的梯度都会接近于 0 值，会造成梯度消失。还有其更复杂的幂运算。

3、relu

3.1公式

$ReLU(x)=\left\{\begin{matrix} 0,x<0 \\ x,x\ge0 \end{matrix}\right.$

3.2 优缺点

优点：

SGD算法的收敛速度比 sigmoid 和 tanh 快；（梯度不会饱和，解决了梯度消失问题）
计算复杂度低，不需要进行指数运算；
适合用于后向传播。

缺点：

ReLU的输出不是zero-centered；
ReLU在训练的时候很”脆弱”，一不小心有可能导致神经元”坏死”。举个例子：由于ReLU在x<0时梯度为0，这样就导致负的梯度在这个ReLU被置零，而且这个神经元有可能再也不会被任何数据激活。如果这个情况发生了，那么这个神经元之后的梯度就永远是0了，也就是ReLU神经元坏死了，不再对任何数据有所响应。实际操作中，如果你的learning rate 很大，那么很有可能你网络中的40%的神经元都坏死了。当然，如果你设置了一个合适的较小的learning rate，这个问题发生的情况其实也不会太频繁。Dead ReLU Problem（神经元坏死现象）：某些神经元可能永远不会被激活，导致相应参数永远不会被更新（在负数部分，梯度为0）。产生这种现象的两个原因：参数初始化问题；learning rate太高导致在训练过程中参数更新太大。解决方法：采用Xavier初始化方法，以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。
ReLU不会对数据做幅度压缩，所以数据的幅度会随着模型层数的增加不断扩张。

4、softmax

4.1公式

$\sigma (x)_{j}=\frac{e^{x_{j}}}{ {\textstyle \sum_{k*1}^{K}e^{x_{k}}} }$

4.2优缺点

优点：
1.因为指数函数曲线呈现递增趋势，最重要的是斜率逐渐增大，也就是说在x轴上一个很小的变化，可以导致y轴上很大的变化。这种函数曲线能够将输出的数值拉开距离。经过使用指数形式的Softmax函数能够将差距大的数值距离拉的更大。
2. 指数函数在求导的时候比较方便
缺点：
当 $e^{x_{j}}$ 值非常大的话，计算得到的数值也会变的非常大，数值可能会溢出。为解决这个问题，可以将每一个输出值减去输出值中最大的值。

softmax的损失函数（交叉熵）

$Loss=-\frac{1}{N}\sum_{i}^{}\sum_{c=1}^{M}y_{ic}log(p_{ic})$
$y_{ic}$ ,真值，符号函数，如果样本 $y_{ic}$ 的真实类别等于 $c$ 取 1 ，否则取 0
$p_{ic}$ 预测概率

5、mish

5.1公式：

$mish(x)=x*tanh(ln(1+e^{x}))$

5.2优缺点

优点：
1.向上无边界(即正值可以达到任何高度)避免了由于封顶而导致的饱和。理论上对负值的轻微允许允许更好的梯度流，而不是像ReLU中那样的硬零边界。
2.平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化。
3.Mish函数在曲线上几乎所有点上的平滑。

缺点：
复杂度提高计算量大

小猪猪爱吃饭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
激活函数+++

文章目录1、sigmod1.1 公式1.2导数1.3优缺点1.4梯度消失的原因2、tanh2.1公式2.2求导2.3优缺点3、relu3.1公式3.2 优缺点4、softmax4.1公式4.2优缺点softmax的损失函数（交叉熵）1、sigmod1.1 公式1.2导数1.3优缺点优点：在特征比较复杂或者相差不是很大时效果较好；可以用于二分类缺点：计算量大；反向传播求梯度时涉及除法；反向传播时容易出现梯度消失的情况，函数收敛缓慢。1.4梯度消失的原因对激活函数进行求导 fx′f^{'}_
复制链接

扫一扫