梯度消失问题的解决方法
梯度消失问题
Sigmoid函数
梯度范围可能变得越来越小
在反向传播超过5层后,梯度可能会消失
激活函数
ReLU函数(rectified linear unit)
导数:
ReLU可被近似为softplut函数
x增加时ReLU的梯度不会消失,可以用来对正值输入进行建模,由于无需计算指数函数所以它的计算速度很快,使用它可以不再需要“预训练”过程。
ResNet:深度残差网络
训练深度网络的困难性:
有时,即使是在训练数据上更深层的网络性能也可能比较浅层的网络差。
一个ResNet的构造块
残差网络在ImageNet上的表现
细线表示训练误差,粗线表示中心裁剪(Center Crops)的验证误差,与普通网络相比&