Abstract
这篇文章基于当时的环境,针对比较困难的深度神经网络的训练,提出了一种残差学习的框架,使得训练更加容易。训练出来的152层深的神经网络是VGG的8倍,且复杂度更低。仅仅是将CNN的主干网络用成残差网络,其性能就可以显著提高。
Innovation
深度学习不是说简单把层数加深就可以做到性能更好的,一个问题是深度加深会导致梯度消失或者梯度爆炸。通过初始归一化和中间层归一化可以解决这个问题,在后续迭代中可以收敛。但带来的另一个问题是收敛后的深层网络不如更浅的网络训练出来的模型。因为训练误差也变高了,说明这个问题不是因为过拟合导致的。理论上新加层可以让输出等于输入,也就是说其最差也应该和浅层网络效果一样。但结果是训练不出来,而针对这一问题作者提出残差网络,将深层的结果加上浅层的输出结果(其实就是恒等映射,identity mapping)
Discussion
这个工作太有名气了,对后面的深度学习工作产生了深远影响。重要性不用再多说了~