《Deep Residual Learning for Image Recognition》论文解析

最新推荐文章于 2024-07-13 05:15:00 发布

哎呦不错的温jay

最新推荐文章于 2024-07-13 05:15:00 发布

阅读量1.1w

点赞数 14

分类专栏：深度学习文章标签：深度学习 resnet cvpr deep learning 神经网络

本文链接：https://blog.csdn.net/wenqiwenqi123/article/details/84943259

版权

深度学习专栏收录该内容

35 篇文章 12 订阅

订阅专栏

朋友们从本周开始我会着手更新新系列的博客，论文解析系列。当然此系列我会尽力细致地介绍论文，不过因为水平有限，难免会有理解不到位甚至错误的地方，因此欢迎评论探讨。同时本系列更趋向于介绍论文大致思想，对于论文中太细的小细节便不再做更多介绍，若是大家想更加详细地了解一篇论文的话，还是去看英文原版的吧。但若是想快速了解论文思想和梗概或是不一样的读者想法，大概看看我的博客也不错。欢迎大家评论区留言提建议。

第一篇先拿resnet开刀了，这篇文章想来是近年来deep learning领域最有名的文章了吧，2016CVPR best paper，为之后几年的很多研究打下了基础。这一篇文章可以说写的是非常好啊，逻辑清晰且通俗易懂。同时这个新的网络结构思路也是天马行空惊为天人。恺明酱现在好像去了facebook。话不多说，进入正题：

《Deep Residual Learning for Image Recognition》

Abstract：

事情的起因在于越深的网络越难以训练，因此作者提出了残差网络。在ImageNet数据集上，作者使用了152层的残差网络进行训练，比VGG网络深了8倍，但是复杂度却更低。同时精度取得了第一。

Introduction：

首先，作者抛出观点，随着网络层数的加深，网络的表达能力会更强，这已经被很多研究所证实。与此同时，梯度消失/爆炸问题也随之出现，但是随着归一地初始化以及在网络中间层进行归一化等等方式的出现，反向传播的梯度下降又变得可行起来。

但是呢，有一个问题出现了，见下图：

图中56层的‘plain’网络，即56层全连接网络，不仅是测试误差，它的训练误差也比20层的网络高！那么这就不是一个过拟合问题了，因为如果是过拟合的话，训练时误差应该很低而测试时很高。而图中是无论训练还是测试都更高。

我们试想一下，假设有两个网络，三层和五层网络，我们最终要得到的结果是1。如果三层网络就可以输出1，那么五层网络只要在最后两层做一个恒等变换，文中叫“identity mapping”，便也可以得到1。因此理论上五层网络绝对不应该比三层网络差的，但是呢实验结果表明，这多出来的网络层并不能做到这种恒等变换。因此在这篇文章中，何恺明给出了解决方法，见下图：