优化深层网络–第一篇
目录
1.激活函数 (sigmoid、tanh、relu、relu变体)
2.正则化 (l1、l2、dropout)
3.权重初始化 (0、随机数、x、he)
参考文献
1、常用激活函数的比较
2、cs231n 课件_lecture6
3、ng优化深层网络
4、l1和l2正则化区别
1 激活函数
(1)sigmoid
存在的问题:
1)Sigmoid函数饱和使梯度消失。当神经元的激活在接近0或1处时会饱和,在这些区域梯度几乎为0,这就会导致梯度消失,几乎就有没有信号通过神经传回上一层。
2)Sigmoid函数的输出不是零中心的。因为如果输入神经元的数据总是正数,那么关于w的梯度在反向传播的过程中,将会要么全部是正数,要么全部是负数,这将会导致梯度下降权重更新时出现z字型的下降。
3)exp()计算代价有一点高