几个常用的激活函数

最新推荐文章于 2024-06-07 10:42:49 发布

菜不卷

最新推荐文章于 2024-06-07 10:42:49 发布

阅读量1.3k

点赞数 2

分类专栏：神经网络文章标签：神经网络

本文链接：https://blog.csdn.net/weixin_44414593/article/details/108219461

版权

神经网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

激活函数的作用

激活函数的作用主要是在网络中增加非线性的因素，试想一下如果没有激活函数，那么全连接or卷积神经网络将会是纯线性黑箱。
首先需要了解激活函数的几个特性。

饱和

当x->+00时，h’(x)->0,右饱和。
当x->-00时，h’(x)->0,左饱和。
当一个激活函数即是左饱和又是右饱和时，称之为饱和。

硬饱和&软饱和

当x>x1时，h’(x)->0,右硬饱和。
当x<x1时，h’(x)->0,左硬饱和。
当一个激活函数即是左硬饱和又是右硬饱和时，称之为硬饱和。
当一个激活函数只有x->00时才h’(x)->0，称之为软饱和。
对于激活函数来说，饱和是一个很难受的特征，因为它会引发梯度消失。

梯度消失&梯度爆炸

因为反向传播，导数是逐层传递到前面的，所以前面层的导数是后面层的叠乘。这就存在两个问题，如果后面层的导数都很大，传递到前面时导数就会变得巨大无比，这就是梯度爆炸。如果后面层的导数非常小，传递到前面时导数越来越小，则会导致梯度消失。梯度爆炸会导致网络不稳定，梯度消失则会到时网络训练及其困难。
所以对于激活函数来说，最好不要存在饱和特性，因为饱和会导致梯度消失。

常用的激活函数

sigmod

sigmod公式：
在这里插入图片描述

可以看出sigmod是典型的软饱和激活函数。
优点：
1.求导容易。
2.因为软饱和，所以不会发生梯度爆炸，梯度较为稳定。
缺点：
1.容易导致梯度消失。
2.其输出并不是以0为中心的。

Tanh

公式：
在这里插入图片描述

tanh是sigmod一次不成功的改进，它会比sigmod收敛快一些，但是并没有解决sigmod的根本问题，梯度消失。

RELU

relu是近些年最受欢迎的激活函数了。
公式：
在这里插入图片描述

优点：
1.在SGD中收敛速度更快。
2.解决了sigmod的梯度消失问题。
3.计算速度快，无论是正向传播还是求导。
缺点：
神经元死亡问题。当x<0时，其数值和导数永远为0，也就导致了反向传播时，只要一个神经元导数为0了，其前面的神经元导数也永远为0。

Leaky relu

公式：
在这里插入图片描述

leaky relu是relu的改进版，取消了x<0时为0，解决了神经元死亡的问题。
优点：
收敛速度快，错误率低。

ELU

ELU也是relu的改进版，elu的公式为：
在这里插入图片描述

ELU和它的导数
在这里插入图片描述

总结

1.除非二分类，基本不会有人使用sigmod激活函数。
2.理论+实践上说，leaky relu的效果要强于relu，但是实际上relu使用的人较多。
3.如果不知道使用哪个激活函数，使用relu或者leaky relu吧。

菜不卷

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
几个常用的激活函数

激活函数的作用激活函数的作用主要是在网络中增加非线性的因素，试想一下如果没有激活函数，那么全连接or卷积神经网络将会是纯线性黑箱。首先需要了解激活函数的几个特性。饱和当x->+00时，h’(x)->0,右饱和。当x->-00时，h’(x)->0,左饱和。当一个激活函数即是左饱和又是右饱和时，称之为饱和。硬饱和&软饱和当x>x1时，h’(x)->0,右硬饱和。当x<x1时，h’(x)->0,左硬饱和。当一个激活函数即是左硬饱和又是右硬
复制链接

扫一扫