SpineNet:一个用于识别和定位的神经网络(阅读记录)

谷歌提出的SpineNet神经网络框架解决了传统卷积神经网络在物体识别和定位上的不足,通过decoder network和多尺度融合,提高了目标检测的AP并降低了算力需求。SpineNet利用NAS进行架构学习,避免手动设计,并能在物体检测和图像分类任务中取得显著提升。
摘要由CSDN通过智能技术生成

  这篇在2019年12月10日由谷歌发表的新型神经网络框架闯入大众的视野,文章提出相较于传统的卷积神经网络在中间层总会进行各种卷积操作来进行一定的特征提取。然而在提取的过程中,总会出现部分的特征损失(卷积后像素降低导致)。这或许对于分类来说无关痛痒,但对于例如物体识别这种同时兼具识别和定位的场景时往往有可能会出现效果不佳的情况。文章提出通过在分类任务的骨干模型设计中采用(decoder network)来解决问题,当然就是采用SpineNet来进行。在COCO上的一级目标检测对比ResNet-FPN不仅AP上提高了6%并且减少了60%的算力需求。并且SpineNet可以转换为分类任务模型,在iNaturalist细粒度数据集上相较于之前的第一名整整提高了6%的精确度。
图一:在COCO上进行的各个神经网络之间的性能对比
  正常情况下我们都知道如果对于一张图片进行采样越底层的保留的细节信息越多,越顶层保留了抽象维度的信息越多。简单的说底层可以提取更多的小物件的细节特征,但是与此同时几乎没有位置信息。作者给出了两个解决思路:首先是对于特征图的中间层的尺度规模是可以随时扩大和缩小的,以便随着模型的深度增加也能保证一定的空间信息。其次两个不同特征层也是可以进行跨尺度的链接,来保证多尺度的特征融合。下图表示作者观点
图二:宽度表示特征层的尺度,高度表示维度,虚线是和下面未画出来出来的特征层进行相连
  同时作者表示虽然手头上已经有一个简单的架构模型,但是为了避免手动设计筛选架构。所以干脆直接把架构设计这件事情一起丢入神经结构搜索(NAS)的中来进行学习。从而使框架和解码模型间不再有区别,都将顺从要素金字塔结构且可视。

  以ResNet50-FPN作为基础网络来进行调整我们对于物体检测任务可以得到巨大的提升,仅进行缩放尺度排列学习就能提高3.7%的AP,如果进一步对模块(e.g.residual block or bottleneck block)的选择进行调整还能提高2%的AP。而这种通过对于缩放尺度排列、骨干架构的学习方式我们也将之命名为SpineNet。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值