为什么选择的激活函数普遍具有梯度消失的特点?
后来看到一篇文章的描述才发现,正是因为模拟人脑的生物神经网络的方法。在2001年有研究表明生物脑的神经元工作具有稀疏性,这样可以节约尽可能多的能量,据研究,只有大约1%-4%的神经元被激活参与,绝大多数情况下,神经元是处于抑制状态的,因此ReLu函数反而是更加优秀的近似生物激活函数。所以抑制现象是必须发生的,这样能更好的拟合特征。同时由于激活函数的导数是小于1的,所以在梯度向后传导时,梯度衰减会非常大,迅速接近零,这就是梯度消失问题。
08-07
08-07
08-07