论文链接:https://arxiv.org/pdf/2007.10035.pdf.
ECCV 2020
1 Background
语义分割是计算机视觉中的一个基本任务,它要给图像中的每个像素都分配一个类别标签。它是场景理解中重要的步骤,并且已经拥有很多的应用,比如自动驾驶、图像生成和自动驾驶。
虽然FCNs已经在许多语义分割benchmarks表现出优越的性能,但是它们仍然还有一些缺点:(1)随着神经网络的深度增加,FCN的感受野生长比较缓慢,受限的RF(感受野)不能建立图像上像素之间的longer-range关系。因此由于目标身体内部模棱两可和噪音的产生使得像素很难去分类。(2)FCN的下采样操作会产生比较模糊的预测因为降低分辨率会丢失细节。
因此预测分割的物体的带斑点的,边界细节也是比较差的,这样就会导致一个性能下降,尤其对于小物体来说。
为了解决第一个问题,许多方法试图区扩大RF,比如空洞卷积、金字塔池化模块、non-local模块、图卷积网络和动态图。
为了解决第二个问题,现有技术设法将包含边界和边缘细节信息的低级特征嵌入到高级特征中或者直接细化输出。然而却忽略了目标body和目标边界之间的相互作用。
人们通过感知物体的body和边缘信息来区分物体是一个很自然的现象。本文通过一个显示的方法探索了body和边缘的关系来获得最后的语义分割结果。
2 Motivation
现有的语义分割方法很多精度很高,但是速度不够快,现有的速度快的模型精度不高。那么有没有一种同时做到速度又快又好的模型? 目前的语义分割方法很多都是在做上下文建模,或者提升分割物体的细节或者边缘,有没有一种结构可以同时做到两件事情?
3 Related Work
- Semantic segmentation:最近的一些语义分割·法主要基于FCNs网络。一些早期的方法还会使用一些结构去来预测操作。比如CRFs来进行边界精细。PSP的PPM模块去建模多尺度上下文环境,而deeplab系列使用是ASPP模块。一些方法采用non-local模块个自注意力机制来得到整张图像上像素级的上下文环境。同时,GCN也被用来在整张图像上进行传播消息。
- Boundary processing:前人的一些工作通过结构定位得到了很好的边界定位。但是这些方法也会有一些缺点,比如错误的边缘的误差反向传播和边缘过拟合带来的噪声。
- Multi task learning:很多任务已经证明了将网络结合起来进行互补任务学习的有效性。
4 Advantages/Contributions
- 本文提出了一种新的语义切分框架,该框架通过对主体和边缘进行不同的分割来实现。
- 本文提出了一个轻量级的基于流的聚合模块,通过一个学习偏移字段将每个像素向对象内部翘整,以保持每个对象的身体部位的一致性。
- 我们提出的模块可以插入到最先进的分割方法,以很低的成本提高其性能。在4个竞争性场景解析数据集上进行了大规模的实验,取得了较好的效果,这些工作都是通过CNN来进行的。
5 Method
5.1. Decoupled segmentation framework
给一张特征图
F
ϵ
R
H
×
W
×
C
F\epsilon R^{H\times W\times C}
FϵRH×W×C,
C
C
C表示通道维度数,
H
×
W
H×W
H×W表示空间分辨率。输出的精调之后的特征图
F
^
\hat{F}
F^和之前一样的大小。
F
F
F可以被分解成两部分
F
b
o
d
y
F_{body}
Fbody和
F
e
d
g
e
F_{edge}
Fedge,本文假设它满足加法原则,即
F
=
F
b
o
d
y
+
F
e
d
g
e
F=F_{body}+F_{edge}
F=Fbody+Fedge。本文的目的就是设计特定的监督部分来处理每个部分。
5.2. Body generation module
body生成模块就是为了一个目标里面生成更一致性的特征表示。这个模块包括两个部分:流畅生成和特征warp。
Flow field generation:为了生成主要都朝向目标中心的流,突出中心部分的特征是一个合理的方法。一般来说,低频的特征图一般包含低频术语。低空间频率部分捕获图像的总和,一个最低的分辨率特征图表示最突出的部分,我们把它视作伪聚类中心位置。
- Feature warping:
- p p p表示点的位置
- δ \delta δ表示流图
-
w
p
w_{p}
wp represents bilinear kernel weights on
warped spatial gird - N \mathbb{N} N represents the involved neighboring pixels.
5.3. Edge preservation module
这个edge preservation模块是被设计去解决高频术语。它包含两步“:(1)从完整特征图中减去body的特征(2)添加详细的低级特征来进行一个补充。最后级联两部分然后再采用一个1*1的卷积层来进行融合
- γ \gamma γ表示卷积层
- ∣ ∣ || ∣∣表示串联操作