Semantic Flow for Fast and Accurate Scene Parsing用于快速准确场景解析的语义流

Semantic Flow for Fast and Accurate Scene Parsing用于快速准确场景解析的语义流

论文Semantic Flow for Fast and Accurate Scene Parsing

代码 https://github.com/lxtGH/SFSegNets

论文地址 https://arxiv.org/pdf/2002.10120v3.pdf

摘要

在本文中,我们专注于设计快速准确的场景解析的有效方法。 提高性能的一种常见做法是获得具有强语义表示的高分辨率特征图。 两种策略被广泛使用–atrous卷积和特征金字塔融合,要么是计算密集型的,要么是无效的。
受相邻视频帧之间运动对齐的光流的启发,我们提出了流对齐模块 (FAM) 来学习相邻级别的特征图之间的语义流,并有效且高效地将高级特征广播到高分辨率特征。 此外,将我们的模块集成到一个共同的特征金字塔结构中,即使在 ResNet-18 等轻量级骨干网络上,也表现出优于其他实时方法的性能。 在几个具有挑战性的数据集上进行了广泛的实验,包括 Cityscapes、PASCAL Context、ADE20K 和 CamVid。 特别是,我们的网络是第一个在 Cityscapes 上以 26 FPS 的帧速率实现 80.4% mIoU 的网络。

引言

场景解析或语义分割是一项基本的视觉任务,旨在正确分类图像中的每个像素。 对性能有很大影响的两个重要因素是:详细信息 [48] 和强语义表示 [6, 67]。 Long等人的开创性工作。 人。 [35] 构建了一个主要由卷积层组成的深度全卷积网络(FCN),以雕刻出强语义表示。 但是,由于使用下采样层,通常会丢失对性能也至关重要的详细对象边界信息。 为了缓解这个问题,最先进的方法 [16, 67, 68, 71] 在其网络的最后几个阶段应用 atrous 卷积 [58] 以产生具有强语义表示的特征图,同时保持 高分辨率。

然而,这样做不可避免地需要大量的额外计算,因为最后几层的特征图可以达到 FCN 的 64 倍。 鉴于使用 ResNet-18 [20] 作为主干网络的 FCN 对于 1024 × 2048 图像的帧速率为 57.2 FPS,在将 atrous 卷积 [58] 应用于网络后,如 [67,68] 中所做的那样,修改后的 网络只有 8.7 FPS 的帧速率。 此外,在没有其他正在进行的程序的单个 GTX 1080Ti GPU 下,之前最先进的模型 PSPNet [67] 对于 1024×2048 输入图像的帧速率仅为 1.6 FPS。 因此,这对于许多先进的现实世界应用程序来说是非常有问题的,例如自动驾驶汽车和机器人导航,它们迫切需要实时在线数据处理。
为了不仅保持详细的分辨率信息,而且获得表现出强语义表示的特征,另一个方向是构建类似 FPN 的 [25,34,48] 模型,该模型利用横向路径以自上而下的方式融合特征图 . 这样,最后几层的深层特征以高分辨率强化了浅层特征,因此细化的特征可以满足上述两个因素,有利于提高精度。 然而,与那些在最后几个阶段持有大特征图的网络相比,这些方法 [1, 48] 的准确性仍然不能令人满意。 我们怀疑低精度问题是由于语义从深层到浅层的无效传播引起的。
为了缓解这个问题,我们建议学习不同分辨率的两个网络层之间的语义流。 语义流的概念受到光流的启发,光流广泛用于视频处理任务[70],以表示由相对运动引起的视觉场景中物体、表面和边缘的表观运动模式。 灵光一现,我们觉得同一张图像的任意分辨率的两个特征图之间的关系也可以用一个特征图到另一个特征图的每个像素的“运动”来表示。在这种情况下,一旦精确的语义流 得到, 网络能够以最小的信息损失传播语义特征. 需要注意的是, 语义流明显不同于光流, 因为语义流将不同层次的特征图作为输入, 并评估它们之间的差异以找到一个 合适的流场将动态指示如何有效地对齐这两个特征图。
基于语义流的概念,我们设计了一种称为流对齐模块(FAM)的新型网络模块,以在场景解析任务中利用语义流。 FAM 之后的特征图既体现了丰富的语义,也体现了丰富的空间信息。 由于 FAM 可以通过非常简单的操作将语义信息从深层有效地传递到浅层,因此在提高准确性和保持卓越效率方面都表现出卓越的功效。 **此外,FAM 是端到端可训练的,并且可以插入到任何骨干网络中,以通过较小的计算开销来改进结果。**为简单起见,我们将所有包含 FAM 但具有不同主干网络的网络称为 SFNet(backbone)。 如图 1 所示,具有不同骨干网络的 SFNet 在相同速度下大幅优于其他竞争对手。 特别是,我们采用 ResNet-18 作为主干的方法在 Cityscapes 测试服务器上以 26 FPS 的帧速率实现了 80.4% 的 mIoU。 当采用 DF2 [31] 作为主干时,我们的方法在配备 DF1 主干时实现了 77.8% mIoU 和 61 FPS 和 74.5% mIoU 和 121 FPS。 此外,当使用更深的骨干网络(如 ResNet-101)时,SFNet 比之前最先进的模型 DANet [16](81.5 %mIoU)取得了更好的结果(81.8 %mIoU),并且只需要 33% 的计算量 推理过程中的 DANet。 此外,SFNet 在各种数据集上始终如一的卓越功效也清楚地证明了其广泛的适用性。

总而言之,我们的主要贡献有三个: 高级特征到高分辨率特征更有效和高效。
1我们将 FAM 插入到特征金字塔框架中,并构建了一个称为 SFNet 的特征金字塔对齐网络,用于快速准确的场景解析。
2 详细的实验和分析表明我们提出的模块在提高准确性和保持轻量级方面的功效。 我们在 Cityscapes、Pascal Context、Camvid 数据集上取得了最先进的结果,并在 ADE20K 上取得了可观的收益。

图 1. Cityscape 测试集上的推理速度与 mIoU 性能。 以前的模型被标记为红点,我们的模型以蓝点显示,它们实现了最佳的速度/准确性权衡。 请注意,我们以 ResNet-18 作为主干的方法甚至以更快的速度达到了与所有准确模型相当的准确度。

pic

图 2. FAM 中特征图和语义流场的可视化。 通过沿通道维度进行平均来可视化特征图。 较大的值由热色表示,反之亦然。 我们使用 [2] 中提出的颜色代码来可视化语义流场。 流向量的方向和大小分别用色调和饱和度表示。

3 方法

在本节中,我们将首先给出一些关于场景解析的初步知识,并介绍其中的错位问题。 然后,我们提出流对齐模块(FAM),通过学习语义流和相应地扭曲顶层特征图来解决错位问题。 最后,我们展示了基于 FPN 框架 [34] 的配备 FAM 的整个网络架构,用于快速准确的场景解析。

3.1预备工作

初步场景解析的任务是将RGB图像X ∈RH×W×3映射到具有相同空间分辨率H×W的语义图Y ∈ RH×W×C,其中C是预定义语义类别的数量。 按照 FPN [34] 的设置,输入图像 X 首先映射到来自每个网络阶段的一组特征图 {Fl}l=2…5,其中 Fl ∈ RHl×Wl×Cl 是一个 Cl 维特征 地图定义在空间网格 Ωl 上,大小为 Hl × Wl; Hl = H/2^l ; Wl = W/2^l。 最粗的特征图 F5 来自语义最强的最深层。 FCN-32s 直接在 F5 上进行预测,并在没有精细细节的情况下实现了过度平滑的结果。 但是,可以通过融合来自较低级别的预测来实现一些改进[35]。 FPN 更进一步,通过 2× 双线性上采样,在自上而下的路径中逐步融合高级特征图和低级特征图,该方法最初是为目标检测提出的 [34],最近被引入用于场景解析 [ 25,54]。 整个 FPN 框架高度依赖上采样算子将空间上更小但语义更强的特征图上采样到更大的空间尺寸。 然而,双线性上采样通过对一组均匀采样的位置进行插值来恢复下采样特征图的分辨率(即,它只能处理一种固定和预定义的错位),而由残差连接引起的特征图之间的错位,重复下采样 和上采样,要复杂得多。 因此,需要明确且动态地建立特征图之间的位置对应关系,以解决它们的实际错位问题。

pic

图 3. (a) Flow Alignment Module 的细节。 我们结合转换后的高分辨率特征图和低分辨率特征图来生成语义流场,用于将低分辨率特征图扭曲为高分辨率特征图。 (b) Flow Alignment Module 的 Warp 程序。 高分辨率特征图的值是低分辨率特征图中相邻像素的双线性插值,其中邻域是根据学习的语义流场定义的。 © 我们提出的 SFNet 概述。 具有四个阶段的 ResNet-18 主干用于示例说明。 FAM:流量校准模块。 PPM:金字塔池模块 [67]。 最好以彩色查看并放大。

3.2 Flow Alignment

模块设计动机。 为了更灵活和动态的对齐,我们彻底研究了光流的概念,它在视频处理任务中非常有效和灵活地对齐两个相邻的视频帧特征 [4, 70]。 光流的想法促使我们设计了一个基于流的对齐模块(FAM),通过预测网络内部的流场来对齐两个相邻级别的特征图。 我们将这样的流场定义为语义流,它是在特征金字塔的不同层次之间生成的。 为了提高效率,在设计我们的网络时,我们采用了高效的骨干网络|FlowNet-S [13]。
模块详细信息。 FAM 是在 FPN 框架内构建的,其中每一层的特征图在进入下一层之前通过两个 1×1 的卷积层压缩到相同的通道深度。 给定两个具有相同通道数的相邻特征图 Fl 和 Fl-1,我们通过双线性插值层将 Fl 上采样到与 Fl-1 相同的大小。 然后,我们将它们连接在一起,并将连接的特征图作为子网络的输入,该子网络包含两个卷积层,内核大小为 3 × 3。子网络的输出是语义流场 Δl 的预测 -1 2 RHl-1×Wl-1×2。
在数学上,上述步骤可以写成:pic

其中 cat(·) 表示连接操作,而 convl(·) 是 3×3 卷积层。 由于我们的网络采用跨步卷积,这可能导致分辨率非常低,因此在大多数情况下,3×3 卷积卷积的各个字段足以覆盖该特征图的大多数大型对象。 请注意,我们丢弃了 FlowNet-C [13] 中提出的相关层,其中位置对应是明确计算的。 由于高层和低层之间存在巨大的语义鸿沟,对这些特征进行显式对应计算很困难,并且往往无法进行偏移预测。 此外,采用这样的相关层会引入大量计算成本,这违背了我们对网络快速准确的目标。
在计算了 Δl-1 之后,空间网格 Ωl-1 上的每个位置 pl-1 然后通过简单的加法运算映射到上层 l 上的点 pl。
由于图 3(b) 所示的特征和流场之间存在分辨率差距,因此扭曲网格及其偏移量应减半,如公式 2,pic

然后,我们使用空间变换器网络[22]中提出的可微双线性采样机制,它对 pl 的 4 个邻居(左上、右上、左下和右下)的值进行线性插值 以近似 FAM 的最终输出,用 Fel(pl-1) 表示。 数学上,

pic

其中 N (pl) 表示 Fl 中扭曲点 pl 的邻居,wp 表示通过扭曲网格的距离估计的双线性核权重。 这种扭曲过程可能看起来类似于可变形卷积网络 (DCN) [10] 中可变形内核的卷积操作。 但是,我们的方法与 DCN 有很多明显的不同。 首先,我们的预测偏移场结合了高层和低层特征来对齐高层和低层特征图之间的位置,而 DCN 的偏移场根据预测的位置偏移量移动内核的位置 为了拥有更大和更具适应性的各自领域。 其次,我们的模块专注于对齐特征,而 DCN 更像是一种关注对象显着部分的注意力机制。 更详细的比较可以在实验部分找到。
总体而言,所提出的 FAM 模块是轻量级和端到端可训练的,因为它总共只包含一个 3×3 卷积层和一个无参数扭曲操作。 除了这些优点之外,它还可以多次插入网络,只需少量的额外计算成本开销。
图 3(a) 给出了所提出模块的详细设置,而图 3(b) 显示了变形过程。 图 2 可视化了两个相邻级别的特征图、它们学习的语义流和最终扭曲的特征图。 如图 2 所示,扭曲特征在结构上比正常的双线性上采样特征更整洁,并导致更一致的对象表示,例如公共汽车和汽车。

3.3 网络架构

图 3© 展示了整个网络架构,其中包含作为编码器的自底向上路径和作为解码器的自顶向下路径。 虽然编码器具有提供不同级别特征表示的主干网络,但解码器可以被视为配备多个 FAM 的 FPN。
编码器部分。 我们通过删除最后一个全连接层,选择在 ImageNet [49] 上预训练的标准网络作为我们的骨干网络进行图像分类。 具体来说,在我们的实验中使用并比较了 ResNet 系列 [20]、ShuffleNet v2 [36] 和 DF 系列 [31]。 所有主干都有 4 个带有残差块的阶段,每个阶段都有一个步长为 2 的卷积层,用于对特征图进行下采样,以追求计算效率和更大的感受野。 我们还采用了金字塔池模块(PPM)[67],因为它具有捕获上下文信息的强大能力。 在我们的设置中,PPM 的输出与最后一个残差模块的分辨率相同。
在这种情况下,我们将 PPM 和最后一个残差模块一起视为即将到来的 FPN 的最后阶段。 其他模块,如 ASPP [6] 也可以插入我们的网络,这些模块也在 Sec. 中进行了实验性消融。 4.1。
Aligned FPN Decoder 从编码器获取特征图,并使用对齐的特征金字塔进行最终的场景解析。 通过在 FPN [34] 的自上而下的路径中用 FAM 替换正常的双线性上采样,{Fl} 4l=2 被细化为 {F~l} 4l=2 ,其中顶层特征图通过对齐并融合到它们的底层 逐元素相加,l 表示特征金字塔级别的范围。 对于场景解析,fFelg4 l=2 [ fF5g 被上采样到相同的分辨率(即输入图像的 1/4)并连接在一起进行预测。 考虑到在上一步中仍然存在错位,我们还将这些上采样操作替换为建议的 FAM。
级联深度监督学习。 我们使用深度监督损失[67]来监督解码器的中间输出,以便于优化。 此外,继[56]之后,也使用了在线硬样本挖掘[50],只对通过交叉熵损失排序的10%最难的像素进行训练

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值