激活函数+++

1、sigmod

1.1 公式

1.2导数

1.3优缺点

优点:在特征比较复杂或者相差不是很大时效果较好;可以用于二分类
缺点:计算量大;反向传播求梯度时涉及除法;反向传播时容易出现梯度消失的情况,函数收敛缓慢。

1.4梯度消失的原因

对激活函数进行求导 f x ′ f^{'}_x fx ,如果此部分大于1,那么层数增多的时候,最终的求出的梯度更新将以指数形式增加,即发生梯度爆炸,如果此部分小于1,那么随着层数增多,求出的梯度更新信息将会以指数形式衰减,即发生了梯度消失.

2、tanh

2.1公式

t a n h ( x ) = 2 s i g m o d ( x ) = e x − e − x e x + e − x tanh(x)=2sigmod(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}} tanh(x)=2sigmod(x)=ex+exexex

2.2求导

t a n h ′ ( x ) = 1 − ( t a n h ( x ) ) 2 tanh^{'}(x)=1-(tanh(x))^2 tanh(x)=1(tanh(x))2

2.3优缺点

优点:在特征相差明显时效果很好,在循环过程中会不断扩大特征效果,且因为 t a n h tanh tanh是0均值,所以实际效果比 s i g m o d sigmod sigmod好,几乎适合所有的场景。

缺点:该导数在正负饱和区的梯度都会接近于 0 值,会造成梯度消失。还有其更复杂的幂运算。

3、relu

3.1公式

R e L U ( x ) = { 0 , x < 0 x , x ≥ 0 ReLU(x)=\left\{\begin{matrix} 0,x<0 \\ x,x\ge0 \end{matrix}\right. ReLU(x)={0,x<0x,x0

3.2 优缺点

优点:

  1. SGD算法的收敛速度比 sigmoid 和 tanh 快;(梯度不会饱和,解决了梯度消失问题)
  2. 计算复杂度低,不需要进行指数运算;
  3. 适合用于后向传播。

缺点:

  1. ReLU的输出不是zero-centered;
  2. ReLU在训练的时候很”脆弱”,一不小心有可能导致神经元”坏死”。举个例子:由于ReLU在x<0时梯度为0,这样就导致负的梯度在这个ReLU被置零,而且这个神经元有可能再也不会被任何数据激活。如果这个情况发生了,那么这个神经元之后的梯度就永远是0了,也就是ReLU神经元坏死了,不再对任何数据有所响应。实际操作中,如果你的learning rate 很大,那么很有可能你网络中的40%的神经元都坏死了。 当然,如果你设置了一个合适的较小的learning rate,这个问题发生的情况其实也不会太频繁。Dead ReLU Problem(神经元坏死现象):某些神经元可能永远不会被激活,导致相应参数永远不会被更新(在负数部分,梯度为0)。产生这种现象的两个原因:参数初始化问题;learning rate太高导致在训练过程中参数更新太大。 解决方法:采用Xavier初始化方法,以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。
  3. ReLU不会对数据做幅度压缩,所以数据的幅度会随着模型层数的增加不断扩张。

4、softmax

4.1公式

σ ( x ) j = e x j ∑ k ∗ 1 K e x k \sigma (x)_{j}=\frac{e^{x_{j}}}{ {\textstyle \sum_{k*1}^{K}e^{x_{k}}} } σ(x)j=k1Kexkexj

4.2优缺点

优点:
1.因为指数函数曲线呈现递增趋势,最重要的是斜率逐渐增大,也就是说在x轴上一个很小的变化,可以导致y轴上很大的变化。这种函数曲线能够将输出的数值拉开距离。经过使用指数形式的Softmax函数能够将差距大的数值距离拉的更大。
2. 指数函数在求导的时候比较方便
缺点:
e x j e^{x_{j}} exj 值非常大的话,计算得到的数值也会变的非常大,数值可能会溢出。为解决这个问题,可以将每一个输出值减去输出值中最大的值。

softmax的损失函数(交叉熵)

L o s s = − 1 N ∑ i ∑ c = 1 M y i c l o g ( p i c ) Loss=-\frac{1}{N}\sum_{i}^{}\sum_{c=1}^{M}y_{ic}log(p_{ic}) Loss=N1ic=1Myiclog(pic)
y i c y_{ic} yic,真值,符号函数,如果样本 y i c y_{ic} yic的真实类别等于 c c c 取 1 ,否则取 0
p i c p_{ic} pic预测概率

5、mish

5.1公式:

m i s h ( x ) = x ∗ t a n h ( l n ( 1 + e x ) ) mish(x)=x*tanh(ln(1+e^{x})) mish(x)=xtanh(ln(1+ex))

5.2优缺点

优点:
1.向上无边界(即正值可以达到任何高度)避免了由于封顶而导致的饱和。理论上对负值的轻微允许允许更好的梯度流,而不是像ReLU中那样的硬零边界。
2.平滑的激活函数允许更好的信息深入神经网络,从而得到更好的准确性和泛化。
3.Mish函数在曲线上几乎所有点上的平滑。

缺点:
复杂度提高计算量大

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值