-
sigmoid
定义: 1 1 + e − x \frac{1}{1+e^{-x}} 1+e−x1
输出:0-1,对于一个极大的负值,输出接近0.对于一个极大的正值,输出接近1
功能:常用于二分类的最后一层。
弊端:当输入接近无穷大或无穷小时,输出变换小,求导(斜率)约为0,容易梯度缺失。不是原点中心对称,有可能造成梯度更新缓慢。输出总是正数。 -
tanh
定义: e x − e − x e x + e − x \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} ex+e−xex−e−x
输出:-0-1,对于一个极大的负值,输出接近-1.对于一个极大的正值,输出接近1
优点:解决了sigmoid的原点对称问题
弊端:当输入接近无穷大或无穷小时,输出变换小,求导(斜率)约为0,容易梯度缺失。比sigmoid更多的指数运算,计算量更大。 -
ReLU
定义: f ( x ) = m a x ( 0 , x ) f(x)=max(0,x) f(x)=max(0,x)
优点:容易计算
弊端:左边的梯度为0. -
Leaky ReLU
定义: f ( x ) = m a x ( 0.01 x , x ) f(x)=max(0.01x,x) f(x)=max(0.01x,x)
优点:解决了ReLU左边梯度为0的问题
另外别的解决方案:Exponential Linear Units (ELU)
深度学习中的非线性激活函数(Sigmoid, tanh, ReLU)
最新推荐文章于 2024-05-13 15:14:03 发布