Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes

DDRNet针对实时语义分割问题,通过深度双分辨率网络和Deep Aggregation Pyramid Pooling Module (DAPPM) 提升性能。在保持高分辨率特征图的同时,提取丰富的上下文信息,实现准确且快速的语义分割。实验结果表明,DDRNet在推理速度和精度上优于同类方法。
摘要由CSDN通过智能技术生成

DDRNet:Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes

作者:Y uanduo Hong, Huihui Pan, Weichao Sun, Senior Member , IEEE, Yisong Jia
时间:2021

0摘要

 对于实时语义分割,用推理速度置换精度是不可取的。一些方法使用轻量级架构(编解码器或双通道)或在低分辨率图像上进行推理,达到了不错的效果。然而,这些实时方法和基于空洞骨干网的模型在性能上仍然存在明显的差距。
 针对这一问题,本文提出了deep dual-resolution networks深度双分辨率网络(DDRNets),设计了一种新的上下文信息提取器—Deep Aggregation Pyramid Pooling Module深度聚合金字塔池模块(DAPPM),以扩大感受野,融合多尺度上下文。

1引言

  • 自DeepLab去掉ResNet 中一些下采样保持分辨率,而后用带孔卷积扩大感受野后,许多网络都采用带有空洞卷积的骨干网,但是,不适于实时网络。
  • HRNet在不修改通用ImageNet分类体系结构的情况下,直接实现深层高分辨率表示,并用自高到低分辨率的并行子网扩大感受野。
  • 一些网络,SwiftNet,BiSeNetV2/1,FANet,fast-scnn,,,
  • our,受HRNet启发。一个主干,然后分成两个不同分辨率的平行分支,一个深度分支生成相对高分辨率的特征地图,另一个通过多次下采样操作提取丰富的上下文信息,两分支桥接多次以融合信息。此外,提出DAPPM扩大感受野。(骨干网在ImageNet上预训练)

贡献:新网络,新模块

2相关工作

在这里插入图片描述

A. High-performance Semantic Segmentation

  • 用带孔卷积取代直接的下采样操作,虽然可以维持高分辨率的感受野,但是带孔卷积的维数之高使得其在实时网络中的实用性降低。
  • HRNet强调深层的高分辨率表示,在语义分割上体现了明显优于带孔骨干网的优势。本文作者认为,HRNet较高的计算效率和推理速度得益于其更细的高分辨率信息流。

B. Real-time Semantic Segmentation

大多数实时网络结构分为:编解码、双分支

  • 1)编解码:利于降低计算量,但下采样操作的损失无法挽回。编码端用轻量化骨干网,解码端用内插/转置卷积恢复
  • 2)双分支结构:对于编解码结构的问题,双分支可以缓解。一个分支获得语义信息,另一浅层分支可以保留细节信息作为补充。
  • 3)轻量化编码头:轻量化头中使用的深度可分离卷积对GPU运算来说并不太友好,故本文用3X3和残差连接构建网络。

C. Context Extraction Module

ASPP、PPM、self-attention(DANet、OCNet、CCNet)。本文采用PPM:Pyramid Pooling Module

3方法

A. Rethinking HRNet

  • HRNet,首先从一个高分辨率的子网开始,然后逐个增加高到低分辨率的子网,形成更多的阶段。因此,实际上是几个并行的多分辨率分支,并且每个分支都是相互连接的。这种结构使得HRNet能够更好地提取不同分辨率下的特征。HRNet在目标检测方面优于基于FPN的ResNet,表现出多尺度表示的特性;与DeepLabv3plus相比,HRNet以更低的计算复杂度和更少的推理时间实现了更好的性能。
  • 语义分割要求高分辨率的特征图能够进行密集的预测,需要较大的接受野来解析场景。相比之下,多尺度表示能力对于目标检测任务更为重要,因为神经网络应该在一幅图像中检测出尽可能多的多尺度目标。从这一点出发,只需预留两个分支,就可以简化HRNet的体系结构。一个分支负责维护高分辨率的特征图,而另一个分支通过重复下采样来生成足够大的接受野。通过大量的实验证明,这种紧凑的体系结构可以极大地提高推理速度,减少对HRNet的内存消耗。

B. Dual-resolution Network for Image Classification

在这里插入图片描述在这里插入图片描述

  • 作者在分类骨干网(如ResNet)上增加额外的高分辨率分支。为在分辨率和推理速度之间取得平衡,让高分辨率分支特征图分辨率为输入图像分辨率的1/8。即,在Conv3阶段结束之后插入额外的分支。note,额外分支不包含任何下采样操作,并且与原始分支(低分辨率分支)具有一一对应关系,以形成深度高分辨率表示。在HRNet的基础上,在两条路径之间增加相似的桥来进行双边特征融合。表I和表II显示了三种具有不同参数和GFLOP的双分辨率网络的具体架构,其中DDRNet-23派生自ResNet-18,DDRNet-39派生自ResNet-34。

  • 对ResNet进行修改,将一个7×7卷积层替换为两个连续的3×3卷积层。然后,利用basic blocks构造两个分支,在每个分支的末端增加一个bottleneck block 。双边融合bilateral fusion 包括将高分辨率分支融合到低分辨率分支(high-to-low fusion)和将低分辨率分支融合到高分辨率分支(low-to-high fusion)。对于高到低融合,在逐点求和之前,对高分辨率特征图进行3×3卷积序列的下采样,步长为2。对于低分辨率到高分辨率的特征图,首先对低分辨率特征图进行1×1卷积压缩,然后用双线性插值进行上采样。
    在这里插入图片描述

  • 双分辨率网络在ImageNet上进行训练。模型都4个2080Ti GPU上训练,输入分辨率为224×224,batch size为256和100个epoches。初始学习率被设置为0.1,在epoches30、60和90处减少10倍。SGD,weight decay为0.0001,momentum为0.9。表三显示了ImageNet验证集上的Top-1errors

在这里插入图片描述在这里插入图片描述

C. Deep Aggregation Pyramid Pooling Module

  • 新的上下文提取模块DAPPM,可以看作是deep feature aggregation和pyramid pooling的结合。图5是DAPPM结构。类似于MSFNet,用大的池化核和指数步长来生成1/128、1/256、1/512输入图像分辨率的特征图。还利用1/64分辨率的输入特征图和由全局平均池化生成的图像级信息。作者认为,仅用3×3或1×1的卷积混合多尺度上下文信息是不够的,故,对特征图先上采样,然后以分层残差的方式融合不同尺度的上下文信息,然后进行3×3卷积。考虑一个x输入,则 y i y_i yi可以写为 y i = { C 1 × 1 ( x ) ,
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值