CNN系列:ResNet:图像识别的深度残差学习(Deep Residual Learning for Image Recognition)...

译者按:

关于图像识别CNN 是基础,VGG和  GoogleNet 是增强版CNN,继VGG和GoogLeNet在网络深度上进行了进一步的尝试,取得了比较大的进展-网络越深效果也越好-,但也遇到了问题:       网络越深,越容易出现梯度消失,导致模型训练难度变大,出现“退化”现象,出现退化的问题,主要是由于网络深度的增加,带来的在网络训练的时候,梯度无法有效的传递到浅层网络,导致出现梯度弥散(vanishing)。BN(BatchNormalization)通过规范化输出数据来改变数据分布,是一个向前的过程来解决梯度弥散问题,而本文作者创造性提出了一种新的网络架构,通过增加skip connection(Identity Map)来直接连接浅层网络与深层网络,从而使得梯度能够很好的传递到浅层。这样resNet 可以达到惊人的150层深度且没有梯度损失,作者凭借着深度残差学习在Imagenet比赛的三个任务、以及COCO比赛的检测和分割任务上都获得了第一名。本文作者何凯明博士,2003年广东省理科高考状元,2007年清华大学毕业,2011年香港中文大学博士毕业后,加入微软亚洲研究院MSRA实习和正式入职,本文是他以第一作者身份在2016 CVPR上获得的最佳论文奖,2016年8月他离开MSRA加入了FAIR(Facebook AI Research),担任研究科学家。恰巧他和前文GoogLeNet作者贾扬清 同为 微软亚洲研究院同事

————————————————————————————————

摘要

在现有基础下,想要进一步训练更深层次的神经网络是非常困难的。我们提出了一种减轻网络训练负担的残差学习框架,这种网络比以前使用过的网络本质上层次更深。我们明确地将这层作为输入层相关的学习残差函数,而不是学习未知的函数。同时,我们提供了全面实验数据,这些数据证明残差网络更容易优化,并且可以从深度增加中大大提高精度。我们在ImageNet数据集用152 层--比VGG网络深8倍的深度来评估残差网络,但它仍具有较低的复杂度。在ImageNet测试集中,这些残差网络整体达到了3.57%的误差。该结果在2015年大规模视觉识别挑战赛分类任务中赢得了第一。此外,我们还用了100到1000层深度分析了的CIFAR-10。

对于大部分视觉识别任务,深度表示是非常重要的。仅由于极深的表示,在COCO对象检查数据时,我们就得到了近28%相关的改进。深度剩余网络是我们提交给ILSVRC和COCO2015竞赛的基础,而且在ImageNet检测任务,ImageNet定位,COCO检测和COCO分割等领域赢我们获得了第一。

简介

深度卷积神经网络在图像分类方面,引发了一系列突破。通过改变叠层的数量(深度),深度网络自然整合低/中/高水平的功能,终端到终端多层方式的分层器,和特征的“水平”都变得更加丰富。最近的证据表明网络深度是至关重要的,在挑战性的ImageNet数据集中领先结果的团队,都利用了“很深”模型,该深度为十六至三十。而且很多特殊的视觉识别任务也从深度模型中大大受益。

受到深度意义的驱使,出现了一个问题:学习更好的网络是否和叠加层数一样简单?解决该问题的一大障碍是臭名昭著的梯度爆发与消失问题,它从一开始就阻碍了收敛。然而,这个问题很大程度上被归一的初始化和中心归一层解决了,它确保几十层的网络开始用反向传播收敛随机梯度下降(SGD)。

当更深的网络能够开始融合时,暴露出了降级问题:随着网络深度的增加,精准度开始饱和(这并不令人吃惊)然后迅速下降。预料之外的是,在[11,42]中报道并且经过我们实验彻底验,证精准度的下降并不是由过度拟合造成的,而且在相配的深度模式中增加更多的层数,会造成更高的训练误差。图1展示了一个经典的实例。

 

 
11332520-7f02e8af5b43c520.png
图1.20层和56层“平原”网络时CIFAR-10的训练误差(左)和测试误差(右),深度网络有着更高的训练误差,并且造成测试误差。在图4也展示了图像网中类似的现象。

精准度的下降表明了,并不是所有的系统都同样容易优化。我们考虑一个较浅的体系结构和与它深度相似增加了更多层的体系结构。其中一个解决方案是建立更深层的模型:添加身份映射层,另一层则是从学习更浅的模型中拷贝的。这个构造解决方案的存在,表示应该制造一个更深层模型,该模型产生的训练误差,低于与它深度相似更浅的模型。但实验显示我们目前无法找到一个与构造解决方案一样好,或者更好的解决方案(或者无法再可行的时间内完成)。

在本论文中,介绍了一个深层次的残差学习框架来解决精准度下降问题。我们明确地让这些层适合残差映射,而不是寄希望于每一个堆叠层直接适合一个所需的底层映射。形式上,把H(x)作为所需的基本映射,让堆叠的非线性层适合另一个映射F(x):=H(x)-x。那么原映射便转化成:F(x)+x。我们假设优化剩余的映射,比优化原来未引用的映射更容易。如果身份映射是最佳的,那么将剩余的映射推为零,就比用一堆非线性层来适应身份映射更容易。

公式F(x)+x可以通过“快捷连接”前馈神经网络实现(图2)。快捷连接是那些跳过中的一层或更多层。在我们的情景中,快捷连接简单的执行身份映射,并将它们的输出添加到叠加层的输出(图2)。身份快捷连接添加既不产生额外的参数,也会增加不计算的复杂度。通过反向传播的SGD,整个网络仍然可以被训练成终端到终端,并且可以在没有修改器的情况下很容易的使用公共图书馆(例如Caffe)。

我们在ImageNet上进行了综合性的实验展示精准度下降问题,并评估我们的方法。我们发现:(1)特别深的残差网很容易优化,但深度增加时,对应的“平面”网(即简单的堆栈层)表现出更高的训练误差。(2)深度残差网络能够在大大增加深度中获得高精准度, 产生的结果本质上优于以前的网络。

相似的现象同样出现在了CIFAR-10集中,这表明了优化的难度,以及我们方法影响的不仅仅是类似于一个特定的数据集。我们在这个超过100层数据集中提出了成功的训练模型,并探讨了超过1000层的模型。

在ImageNet分层数据集中,通过极深的残差网络,我们得到了非常好的结果。152层的残差网络在ImageNet中是最深层的网络,同时相比于VGG网络仍然具有较低的复杂性。我们的集成在ImageNet测试集中有3.57%排前5的误差,并且在2015ILSVRC分类竞争中取得第一名。这种极深的陈述在其它识别任务方面也有出色的泛化性能,并带领我们进一步赢得了

第一的位置:在ILSVRC和COCO2015竞赛中的,mageNet检测,ImageNet定位,COCO检测,和COCO分割方面。这有力的证据表明,剩余的学习的原则是通用的,我们期望它适用于其它的视觉和非视觉问题。

2.相关工作

残差表示。在图像识别中,VLAD是一个象征,通过关于字典的残差向量进行编程,而且费舍尔向量可以被制定成VLAD的概率版本。它们两个对于图像检索与分类都是有效的浅表示。

对于矢量化,编码残差向量比编码原始向量更有效。

在低层次视觉和计算机图形学中,为了解决偏微分方程(PDEs),它们广泛的使用多重网格法,将系统重构成多尺度的子问题,每个子问题负责更粗和更细规模之间的残差解答。多重网格的一种替代方法是分层的基础预处理,它依赖于表示两个尺度之间的残差向量的变量。

这些收敛解法比不知道残差性质的标准解法快得多。这些方法表明,一个好的方法或预处理可以简化优化。

快捷连接。导致快捷连接的方法和理论已经被研究了很长时间。训练多层感知器早期的实践是从网络的输入到输出添加一个线性层。在[44,24]中,一些中间层直接连接到辅助分类器,来解决梯度的爆发与消失问题。论文的[39,38,31,47]提出用于中心层响应,梯度和传播误差了的方法,该方法通过快捷连接实现。在[ 44 ],一个“开始”层是由一个快捷的分支和一些更深的分支组成。

并发我们的工作,“highway network”提出了门控功能的快捷连接。这些门依赖于数据和已有的参数&#

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值