Sigmoid
sigmoid与“梯度消失是因为梯度的更新与浅层、深层网络参数的更新相差巨大”
Rule,解决梯度消失的问题,同时LSTM也可以解决梯度消失,但是作用在RNN上。
Rule与神经元死亡,若输入值都是小于0,则无法再进行训练了
Rule梯度只有0和1,在小于0的部分检测边缘不会进行检测。
LeakyRule,解决神经元死亡问题。
小于0的部分,斜率有微小的变动,斜率值一般取0.01
网络截取:超参数α的取值也已经被很多实验研究过,有一种取值方法是 对α随机取值,α的分布满足均值为0,标准差为1的正态分布,该方法叫做随机LeakyReLU(Randomized LeakyReLU)。原论文指出随机LeakyReLU相比LeakyReLU能得更好的结果,且给出了参数α的经验值1/5.5(好于0.01)。至于为什么随机LeakyReLU能取得更好的结果,解释之一就是随机LeakyReLU小于0部分的随机梯度,为优化方法引入了随机性,这些随机噪声可以帮助参数取值跳出局部最优和鞍点,这部分内容可能需要一整篇文章来阐述。正是由于α的取值至关重要,人们不满足与随机取样α,有论文将α作为了需要学习的参数,该激活函数为PReLU(Parametrized ReLU)。
ELU
x>0,y=x
x<0,y=a(e^x-1),超参数a一般取1
特点:
1.解决LeakyRule非单侧饱和问题
2.解决Rule输出的分布非零均值问题