这篇在2019年12月10日由谷歌发表的新型神经网络框架闯入大众的视野,文章提出相较于传统的卷积神经网络在中间层总会进行各种卷积操作来进行一定的特征提取。然而在提取的过程中,总会出现部分的特征损失(卷积后像素降低导致)。这或许对于分类来说无关痛痒,但对于例如物体识别这种同时兼具识别和定位的场景时往往有可能会出现效果不佳的情况。文章提出通过在分类任务的骨干模型设计中采用(decoder network)来解决问题,当然就是采用SpineNet来进行。在COCO上的一级目标检测对比ResNet-FPN不仅AP上提高了6%并且减少了60%的算力需求。并且SpineNet可以转换为分类任务模型,在iNaturalist细粒度数据集上相较于之前的第一名整整提高了6%的精确度。
正常情况下我们都知道如果对于一张图片进行采样越底层的保留的细节信息越多,越顶层保留了抽象维度的信息越多。简单的说底层可以提取更多的小物件的细节特征,但是与此同时几乎没有位置信息。作者给出了两个解决思路:首先是对于特征图的中间层的尺度规模是可以随时扩大和缩小的,以便随着模型的深度增加也能保证一定的空间信息。其次两个不同特征层也是可以进行跨尺度的链接,来保证多尺度的特征融合。下图表示作者观点
同时作者表示虽然手头上已经有一个简单的架构模型,但是为了避免手动设计筛选架构。所以干脆直接把架构设计这件事情一起丢入神经结构搜索(NAS)的中来进行学习。从而使框架和解码模型间不再有区别,都将顺从要素金字塔结构且可视。
以ResNet50-FPN作为基础网络来进行调整我们对于物体检测任务可以得到巨大的提升,仅进行缩放尺度排列学习就能提高3.7%的AP,如果进一步对模块(e.g.residual block or bottleneck block)的选择进行调整还能提高2%的AP。而这种通过对于缩放尺度排列、骨干架构的学习方式我们也将之命名为SpineNet。