CVPR2020论文翻译 Context Prior for Scene Segmentation

本文介绍了CVPR2020会议上关于场景分割的论文,提出了一种新的上下文先验模型。该模型通过监督学习捕捉类内和类间上下文相关性,以提升分割准确性。研究发现,明确区分不同类型的上下文依赖对于场景理解至关重要。论文提出了一种亲和力损失来指导上下文先验的学习,并设计了包含该损失的上下文先验层。实验结果显示,提出的上下文先验网络(CPNet)在多个数据集上表现出色,优于现有方法。
摘要由CSDN通过智能技术生成

CVPR2020: Context Prior for Scene Segmentation

题目:场景分割的上下文先验

在这里插入图片描述

论文地址:https://arxiv.org/pdf/2004.01547.pdf

代码地址:https://git.io/ContextPrior

摘要

最近的工作广泛探索了上下文相关性,以实现更准确的分割结果。但是,大多数方法很少区分不同类型的上下文依赖项,这可能会影响场景理解。在这项工作中,我们直接监督特征聚合以清楚地区分类内和类间上下文。具体来说,我们在亲和力损失的监督下开发了上下文先验。给定输入图像和相应的基本事实,亲和力损失将构建理想的亲和力图来监督上下文先验的学习。

1.介绍

场景分割是计算机视觉中一个长期存在的挑战性问题,具有许多下游应用程序,例如增强现实,自动驾驶[8、12],人机交互和视频内容分析。目标是为每个像素分配一个类别标签,以提供全面的场景理解。

受益于全卷积网络(FCN)的有效特征表示,一些方法已经获得了极好的性能。但是,受卷积层结构的限制,FCN提供的上下文信息不足,有待改进。因此,各种方法[1、3、5、32、49、43、45、35、19]探索上下文相关性以获得更准确的分割结果。聚合上下文信息的途径主要有两种:1)基于金字塔的聚合方法。几种方法[49、1、3、5]采用基于金字塔的模块或全局池来定期汇总区域或全局上下文细节。但是,它们捕获了同质的上下文关系,而忽略了不同类别的上下文相关性,如图1(b)所示。当场景中存在混淆类别时,这些方法可能会导致上下文可靠性降低。2)基于注意力的聚合方法。 最近的基于注意力的方法学习通道注意力[45,43],空间注意力[23]或逐点注意力[50,11,44],以选择性地聚合异构上下文信息。然而,由于缺乏显式的正则化,注意力机制的关系描述还不清楚。因此,它可能会选择不良的上下文依存关系,如图1(e)所示。总体而言,这两种路径在没有明确区分的情况下汇总了上下文信息,从而导致了不同上下文关系的混合。
图1.场景分割中的困难示例。 在第一行中,红色方框中沙子的中央部分被误分类为海洋,因为阴影部分的外观与海洋相似。 使用基于金字塔的聚合方法[3],混淆的空间信息的聚合可能导致不良的预测,如(b)所示。 在第二行中,绿色框中的桌子的外观与床的底部相似。 基于注意力的方法[50]在没有先验知识的情况下无法有效地区分混淆的空间信息,从而导致预测结果不正确,如(e)所示。 在提出的CPNet中,我们以清晰的区分方式聚合了上下文相关性。 值得注意的是,上下文先验将类内和类间关系建模为上下文先验知识,以捕获类内和类间上下文相关性。
我们注意到,所标识的上下文相关性有助于网络理解场景。相同类别(类内上下文)的相关性以及不同类之间的差异(类间上下文)使特征表示更可靠,并减少了可能类别的搜索空间。因此,我们将类别之间的上下文关系建模为先验知识,以获得更准确的预测,这对于场景分割非常重要。

在本文中,我们构造了上下文先验,以将类内和类间的依赖关系建模为先验知识。我们将上下文先验公式化为二进制分类器,以区分当前像素属于同一类别的像素,而相反的先验则可以集中于不同类别的像素。具体来说,我们首先使用全卷积网络来生成特征图和相应的先验图。对于特征图中的每个像素,先验地图可以选择性地突出显示属于同一类别的其他像素,以聚集类内上下文,而相反的先验可以聚集类间上下文。为了将先验嵌入网络,我们开发了一个包含亲和力损失的上下文先验层,它直接监督先验的学习。同时,上下文先验还需要空间信息来推理这些关系。 为此,我们设计了一个聚合模块,该模块采用完全可分离的卷积(在空间和深度维度上均分开)[32、7、48、29]有效地聚合空间信息。

为了证明所提出的上下文先验算法的有效性,我们设计了一个简单的完全卷积网络,称为上下文先验网络(CPNet)。基于骨干网络[1、3、36]的输出特征,上下文优先级层使用聚合模块来聚合空间信息以生成上下文优先级映射。在亲和度损失的监督下,上下文先验图可以捕获类内上下文和类间上下文以细化预测。广泛的评估表明,所提出的方法在相较于几种最新的最新语义分割方法方面表现出色。

这项工作的主要贡献概述如下。

  • 我们通过监视嵌入上下文先验层中的亲和力损失来构造上下文先验,以明确捕获类内和类间上下文相关性。
  • 我们为场景分割设计了有效的上下文先验网络(CP-Net),其中包含骨干网和上下文先验层。
  • 我们证明了所提出的方法在ADE20K,Pascal-Context和Cityscapes的基准测试中与最新方法相比具有良好的性能。 更具体地说,我们的单个模型在ADE20K验证集上达到46.3%,在PASCAL-Context验证集上达到53.9%,在Cityscapes测试集上达到81.3%。

2.相关工作

上下文聚合。 近年来,各种方法已经探索了上下文信息,这对于场景理解至关重要[1、5、32、49、43、45、44、19、26、41]。捕获上下文相关性主要有两条路径。 1)PSPNet [49]采用金字塔池化模块将特征图划分为不同的比例区域。它将每个区域的像素平均为该区域中每个像素的局部上下文。同时,Deeplab [1,3,5]方法采用多孔空间金字塔池来采样不同范围的像素作为局部上下文。2)DANet [11],OCNet [44]和CCNet [18]利用自相似方式[37]来聚合远程空间信息。此外,EncNet [45],DFN [43]和ParseNet [27]使用全局池来收集全局上下文。

尽管这些注意机制取得了成功,但它们可能捕获了不需要的上下文依存关系,而没有明确区分不同上下文关系的差异。因此,在提出的方法中,我们显式规范化该模型以获得类内和类间上下文相关性。

注意力机制 近年来,注意力机制得到了广泛的应用。它可以用于各种任务,例如机器翻译[34],图像/动作识别[37、6、16],对象检测[15]和语义分割[43、45、42、50、11、44]。

对于语义分割任务,[4]学习了一种注意机制来软加权多尺度特征。受SENet [16]的启发,诸如EncNet [45],DFN [43]和BiSeNet [42]之类的某些方法采用通道注意来选择所需的特征图。继[34,37]之后,DANet [11]和OCNet [44]使用自我关注来捕获远程依赖,而PSANet [50]则通过点对点学习来自适应地获取远程信息。

但是,这些有效的方法缺少显式的正则化,可能会导致不良的上下文聚合。因此,在工作中,我们提出了嵌入在上下文先验层中的具有明确亲和力损失的上下文先验,以监督学习过程。

3. 上下文先验

上下文相关性在场景理解中起着至关重要的作用,这在各种方法中得到了广泛的探索[49、32、27、45、3、43]。但是,这些方法将不同的上下文依赖关系汇总在一起。如第1节所述,场景理解需要清晰的上下文关系。

在我们的研究中,我们提出了“上下文先验”模型,以对相同类别(上下文内)的像素与不同类别(上下文间)的像素之间的关系进行建模。基于上下文先验,我们提出了一个上下文先验网络,该上下文合并了上下文先验层并监督了亲和度损失,如图2所示。在本节中,我们首先介绍亲和度损失,它监督该层以学习上下文先验地图。接下来,我们演示上下文先验层,该上下文先验层使用学习的上下文先验地图为每个像素聚合上下文内和上下文间。聚合模块旨在聚合空间信息以进行推理。最后,我们详细说明我们完整的网络结构。
图2.提议的上下文先验层概述。上下文先验级层包含一个聚合模块和一个由亲和力丢失监督的上下文先验级地图。利用提取的输入特征,聚合模块聚集空间信息以推理上下文关系。我们在亲和损失的监督下生成了一个点式上下文先验图。亲和度损失构建理想亲和度图,该理想亲和度图指示相同类别的像素,以监督上下文先验图的学习。基于上下文先验图,我们可以获得优先级内(P)和优先级间(1- P)。将原始特征图重塑为N×C1size,其中N = H×W。我们使用P和(1- P)在重塑后的特征图上进行矩阵乘法,以捕获类内和类间上下文。最后,我们将上下文先验的表示形式输入到最后的卷积层中,以生成每个像素的预测。(符号:Aggregation聚合模块,Conv卷积层,×矩阵乘法,P上下文先验图,Concat串联操作)。

3.1 亲和力损失

在场景分割任务中,对于每个图像,我们都有一个基本事实,该事实为每个像素分配一个语义类别。网络很难根据孤立的像素对上下文信息进行建模。为了明确规范网络以建模类别之间的关系,我们引入了亲和度损失。对于图像中的每个像素,此损耗迫使网络考虑相同类别的像素(上下文内)和不同类别之间的像素(上下文间)。
给定输入的基本事实,我们可以知道每个像素的“上下文先验”(即,哪些像素属于同一类别,哪些像素不属于同一类别)。因此,我们可以根据基本事实在引导网络之前学习上下文。为此,我们首先以地面实况为指导构建理想亲和图。给定输入图像I和基本事实 L L L,我们将输入图像 I I I馈送到网络,获得大小为 H × W H×W H×W的特征图 X X X.如图3所示,我们首先将地面实况 L L L下采样为特征图 X X X的相同大小,从而得到较小的地面实况 L ~ \widetilde{L} L 。我们使用one-of-K方案(单热编码)对地面实况 L ~ \widetilde{L} L 中的每个分类整数标签进行编码,从而得到 H × W × C H×W×C H×W×C大小的矩阵 L ^ \widehat{L} L ,其中 C C C是类数。接下来,我们将编码后的地面真值整形为 N × C N×C N×C大小,其中 N = H × W N = H×W NH×W。最后,我们进行矩阵乘法: A = L ^ L ^ T A=\widehat{L}{{\widehat{L}}^{T}} A=L L T A A A是我们所需的理想亲和图,大小为 N × N N×N N×N,可对属于同一类别的像素进行编码。我们采用理想亲和图来监督上下文先验图的学习。
在这里插入图片描述对于先验图中的每个像素,这是一个二进制分类问题。解决该问题的常规方法是使用二进制交叉熵损失。给定大小为 N × N N×N N×N的预测先验图 P P P(其中 { p n ∈ P , n ∈ [ 1 , N 2 ] } \left\{ {{p}_{n}}\in P,n\in \left[ 1,{{N}^{2}} \right] \right\} {pnP,n[1,N2]})和参考理想亲和图 A A A(其中 { a n ∈ A , n ∈ [ 1 , N 2 ] } \left\{ {{a}_{n}}\in A,n\in \left[ 1,{{N}^{2}} \right] \right\} {anA,n[1,N2]}),二元交叉熵损失可以表示为: L u = − 1 N 2 ∑ n = 1 N 2 ( a n log ⁡ p n + ( 1 − a n ) log ⁡ ( 1 − p n ) ) {{L}_{u}}=-\frac{1}{{{N}^{2}}}\sum\limits_{n=1}^{{{N}^{2}}}{\left( {{a}_{n}}\log {{p}_{n}}+\left( 1-{{a}_{n}} \right)\log \left( 1-{{p}_{n}} \right) \right)} Lu=N21n=1N2(anlogpn+(1an)log(1pn))

但是,这样的一元损失仅考虑先验映射中的孤立像素,而忽略了与其他像素的语义相关性。先验图 P P P的每一行的像素对应于特征图 X X X的像素。我们可以将它们分为类内像素和类间像素,它们之间的关系有助于推理语义相关性和场景结构。因此,我们可以将类内像素和类间像素视为两个整体来分别对关系进行编码。为此,我们基于二元互熵损失设计了一个全局项: T j p = log ⁡ ∑ i = 1 N a i j p i j ∑ i = 1 N p i j \Tau _{j}^{p}=\log \frac{\sum\nolimits_{i=1}^{N}{{{a}_{ij}}{{p}_{ij}}}}{\sum\nolimits_{i=1}^{N}{{{p}_{ij}}}} Tjp=logi=1Npiji=1Naijpij T j r = log ⁡ ∑ i = 1 N a i j p i j ∑ i = 1 N a i j \Tau _{j}^{r}=\log \frac{\sum\nolimits_{i=1}^{N}{{{a}_{ij}}{{p}_{ij}}}}{\sum\nolimits_{i=1}^{N}{{{a}_{ij}}}} Tjr=logi=1Naiji=1Naijpij T j s = log ⁡ ∑ i = 1 N ( 1 − a i j ) ( 1 − p i j ) ∑ i = 1 N ( 1 − a i j ) \Tau _{j}^{s}=\log \frac{\sum\nolimits_{i=1}^{N}{\left( 1-{{a}_{ij}} \right)\left( 1-{{p}_{ij}} \right)}}{\sum\nolimits_{i=1}^{N}{\left( 1-{{a}_{ij}} \right)}} Tjs=logi=1N(1aij)i=1N(1aij)(1pij) L g = − 1 N ∑ j = 1 N ( T j p + T j r + T j s ) {{L}_{g}}=-\frac{1}{N}\sum\limits_{j=1}^{N}{\left( \Tau _{j}^{p}+\Tau _{j}^{r}+\Tau _{j}^{s} \right)} Lg=N1j=1N(Tjp+Tjr+Tjs)
其中 T j p \Tau _{j}^{p} Tjp T j r \Tau _{j}^{r} Tjr T j s \Tau _{j}^{s} Tjs分别代表 P P P的第 j j j行的类内预测值(精度),类内真实率(召回率)和类间真实率(特异性)。
最后,基于一元项和全局项,可以将完整的亲和度损失表示为: L p = λ u L u + λ g L g {{L}_{p}}={{\lambda }_{u}}{{L}_{u}}+{{\lambda }_{g}}{{L}_{g}} Lp=λuLu+λgLg
其中 L p {{L}_{p}} Lp L u {{L}_{u}} Lu L g {{L}_{g}} Lg分别表示亲和力损失,一元损失(二元交叉熵损失)和全局损失函数。另外, λ u {{\lambda }_{u}} λu λ g {{\lambda }_{g}} λg分别是一元损失和整体损失的平衡权重。我们根据经验将权重设置为: λ u = 1 {{\lambda }_{u}}=1 λu=1以及 λ g = 1 {{\lambda }_{g}}=1 λg=1

3.2. 上下文先验层

上下文先验层考虑形状为 H × W × C 0 H\times W\times {{C}_{0}} H×W×C0的输入要素 X X X,如图2所示。我们采用一个聚合模块,将 X X X调整为 H × W × C 1 H\times W\times {{C}_{1}} H×W×C1的形式的 X ~ \widetilde{X} X 。给定 X ~ \widetilde{X} X ,一个1×1卷积层,然后是一个BN层[20]和一个Sigmoid函数,可用于学习大小为 H × W × N ( N = H × W ) H×W×N(N=H×W) H×W×NN=H×W的先验层 P P P。在亲和度损失的明确监督下,上下文先验图 P P P可以对类内像素和类间像素之间的关系进行编码。内部类由 Y = P X ~ Y=P\widetilde{X} Y=PX 给出,其中 X ~ \widetilde{X} X 重塑为 N × C 1 N\times {{C}_{1}} N×C1大小。在该运算中,先验图可以针对特征图中的每个像素自适应地选择类内像素作为类内上下文。另一方面,应用反向先验图以选择性地突出显示类间像素作为类间上下文: Y ‾ = ( 1 − P ) X ~ \overline{Y}=\left( 1-P \right)\widetilde{X} Y=(1P)X ,其中 1 1 1是大小与 P P P相同的全1矩阵。最后,我们将原始特征和两种上下文连接起来以输出最终预测: F = C o n c a t ( X , Y , Y ‾ ) F=Concat\left( X,Y,\overline{Y} \right) F=Concat(X,Y,Y)。在这两种情况下,我们可以推断每个像素的语义相关性和场景结构。

3.3. 聚合模块

如第1节所述,上下文先验图需要一些局部空间信息来推理语义相关性。因此,我们设计了一种高效的聚合模块,该模块具有完全可分离的卷积(在空间和深度维度上均独立),以聚合空间信息。卷积层可以固有地聚集附近的空间信息。聚合更多空间信息的自然方法是使用较大的滤波器卷积。然而,具有大滤波器尺寸的卷积在计算上是昂贵的。因此,类似于[33,32],我们将标准卷积在空间上分解为两个非对称卷积。对于 k × k k×k k×k卷积,我们可以使用 k × 1 k×1 k×1卷积,然后使用 1 × k 1×k 1×k卷积作为替代,称为空间可分卷积。与标准卷积相比,它可以减少 k 2 \frac{k}{2} 2k计算并保持相等的感受野大小。同时,每个空间可分卷积采用深度卷积[7,48,14],进一步导致计算量的减少。考虑空间和深度尺寸,我们将此可分离卷积称为完全可分离卷积。图4展示了聚合模块的完整结构。
在这里插入图片描述

3.4. 网络架构

上下文先验网络(CPNet)是由骨干网络和上下文先验层组成的完全卷积网络,如图2所示。骨干网络是具有扩张策略[49、50、45]的现成的卷积网络[13、48、35],例如ResNet [13]。在上下文先验层中,聚合模块首先有效地聚合一些空间信息。基于聚集的空间信息,上下文先验层学习上下文先验图以捕获类内上下文和类间上下文。同时,亲和度损失规范了上下文先验的学习,而交叉熵损失函数则是分段监督。继开创性工作[49、50、45]之后,我们在骨干网络的第4阶段采用了辅助损失,这也是交叉熵损失。最终损失函数如下: L = λ s L s + λ a L a + λ p L p L={{\lambda }_{s}}{{L}_{s}}+{{\lambda }_{a}}{{L}_{a}}+{{\lambda }_{p}}{{L}_{p}} L=λsLs+λaLa+λpLp
其中 L s {{L}_{s}} Ls L a {{L}_{a}} La L p {{L}_{p}} Lp分别代表主要的分割损失,辅助损失和亲和力损失函数。另外, λ s {{\lambda }_{s}} λs λ a {{\lambda }_{a}} λa λ p {{\lambda }_{p}} λp分别是权衡平衡分段损失,辅助损失和亲和力损失的权重。我们根据经验将权重设置为: λ s = 1 {{\lambda }_{s}}=1 λs=1以及 λ p = 1 {{\lambda }_{p}}=1 λp=1。类似于[49,50,45],我们设置权重: λ a = 0.4 {{\lambda }_{a}}=0.4 λa=0.4

4.实验结果

在本节中,我们首先介绍拟议网络的实施和训练细节。接下来,我们评估所提出的方法并将其与最新的方法进行比较,以比较三个具有挑战性的场景分割数据集,包括ADE20K [52],PASCAL-Context [30]和Cityscapes [8]。 我们使用PyTorch [31]工具箱实现了建议的模型。

4.1.实施细节

网络。我们采用ResNet [13]作为带有扩张策略[1、3、5]的预训练模型。然后我们采用双线性插值对预测进行八次上采样以计算分割损失。遵循[49、50、45],我们在骨干网络的第4阶段上整合了辅助损耗。我们将聚合模块中完全可分离卷积的过滤器大小设置为11。
数据扩充。在训练阶段,我们在输入图像上应用均值减法,随机水平翻转和随机尺度,其中包含{0.5、0.75、1.0、1.5、1.75、2.0},以避免过拟合。最后,我们随机裁剪大图像或将小图像填充为固定大小进行训练(ADE20K为480×480,PASCAL-Context为512×512,城市景观为768×768)。
优化。我们使用具有0.9动量,10-4重量衰减和16批大小的随机梯度下降(SGD)算法[22]来微调CPNet模型。值得注意的是,在Cityscapes数据集上进行训练时,我们将权重衰减设置为5×10-4。在进行开创性工作[2、3、43、42]之后,我们采用“多元”学习率策略 γ = γ 0 × ( 1 − N i t e r N t o t a l ) p \gamma \text{=}{{\gamma }_{0}}\times {{\left( 1-\frac{{{N}_{iter}}}{{{N}_{total}}} \right)}^{p}} γ=γ0×(1NtotalNiter)p,其中 N i t e r {{N}_{iter}} Niter N t o t a l {{N}_{total}} Ntotal代表当前迭代次数和总迭代次数以及 p = 0.9 p=0.9 p=0.9。对于ADE20K,我们将基本学习率 γ 0 {{\gamma }_{0}} γ0设置为2×10-2,而对于PASCAL-Context和Cityscapes,将基本学习率 γ 0 {{\gamma }_{0}} γ0设置为1×10-2。同时,我们在ADE20K上训练了80K次迭代的模型,在PASCAL-Context中训练了25K次的模型,在Cityscapes中训练了60K次的模型。在ADE20K和PASCAL-Context数据集上进行训练时,我们使用标准的交叉熵损失。在与[38、42、44]相似的城市景观训练中,我们采用自举交叉熵损失[38]来缓解该数据集中的类不平衡问题。
推理。在推论阶段[49、32、43、45]之后,我们对多个缩放和翻转输入的预测取平均值,以进一步提高性能。对于ADE20K和PASCAL-Context数据集,我们使用包括{0.5、0.75、1.0、1.5、1.75}的比例,而对于Cityscapes数据集使用{0.5、0.75、1、1.5}的比例。此外,我们采用像素精度(pixAcc)和联合的平均交集(mIoU)作为评估指标。

4.2.ADE20K数据集上的评估

数据集描述。ADE20K具有复杂的场景和多达150个类别标签,因此是一个具有挑战性的场景解析基准。该数据集可以分为20K / 2K / 3K分别用于训练,验证和测试。我们使用pixAcc和mIoU在验证集上报告结果。
消融研究。为了证明Context Prior和CPNet的有效性,我们使用不同的设置进行了实验,并与其他空间信息聚合模块进行了比较,如表1所示。
在这里插入图片描述首先,我们介绍我们的基准模型。我们基于验证集上基于ResNet-50 [13]的膨胀卷积[1]评估FCN [28]模型。按照[49,45,50],我们在ResNet主干网的第4阶段添加辅助损失。这样可以将mIoU提高1.86%(34.38%→36.24%),将pixAcc提高0.86%(76.51%→77.37%)。 我们采用此模型作为基准。基于FCN提取的特征,各种方法聚合上下文信息以提高性能。基于金字塔的方法(例如PSP和ASPP)采用金字塔池或金字塔膨胀率来聚合多范围空间信息。最近的方法[44,11]应用自注意力[37]方法来汇总远程空间信息,而PSA模块[50]则学习了超参数的逐点注意。表1列出了使用不同空间信息聚合模块的重新实现结果。虽然这些方法可以改善基线上的性能,但它们将空间信息聚合为类内和类间上下文的混合,可能使网络混乱,如第1节中所述。因此,不同于这些方法,所提出的CPNet将上下文相关性视为上下文来编码确定的上下文关系。具体来说,对于每个像素,我们使用上下文先验层捕获类内上下文和类间上下文。使用相同的主干网ResNet-50,并且没有其他测试技巧,我们的方法相对于这些方法具有良好的性能。
我们还研究了CPNet模型中聚合模块,类内先验分支,类间分支和亲和力损失的有效性。我们使用过滤器大小为11的聚合模块来聚合本地空间信息。与[50]相似,聚合模块生成分辨率为 N × N ( N = H × W ) N×N(N = H×W) N×NN=H×W的注意力掩码以精炼预测。如表1所示,聚合模块相对于基准模型将mIoU和pixAcc提高了5.27%/ 2.56%。使用基于二进制交叉熵损失的类内先验分支,我们的单规模测试结果在mIoU和pixAcc方面达到42.34%/ 80.15%,比基线高出6.1%/ 2.78%。另一方面,在相同设置下,类间先验分支达到42.88%/ 79.96%。两项重大改进都证明了所提出的“上下文先验”的有效性。
为了进一步改善上下文先验图的质量,我们设计了一个亲和度损失。表1表明,亲和力损失可以使基于类内先验分支的mIoU和pixAcc提高0.4%/ 0.15%,而基于类间先验分支则可以提高0.55%/ 0.25%。我们将类内先验分支和类间先验分支与亲和力损失集成在一起,以实现43.92%的mIoU和80.77%的pixAcc,这表明这两个先验可以互补。为了进一步提高性能,我们采用了多尺度翻转测试策略,以达到44.46%mIoU和81.38%pixAcc。更深的网络导致更好的功能表示,我们的CPNet通过ResNet-101获得45.39%的mIoU和81.04%的pixAcc。通过测试策略,我们基于ResNet-101的模型可实现46.27%mIoU和81.85%pixAcc。 图5提供了一些可视化示例。
在这里插入图片描述
分析和讨论。在表1中,建议的CPNet在ADE20K基准上取得了相当大的改进。有人可能会争辩说,聚合模块的大过滤器尺寸会导致性能提高。或者可能会质疑“上下文先验”是否可以推广到其他算法。因此,我们提供了更多的证据来彻底了解上下文先验。我们对带有ResNet-50主干网络在ADE20K验证集进行讨论实验。表2和表3中报告的结果是单尺度测试结果。
在这里插入图片描述
(1)空间信息与上下文先验之间的影响。如第3节所述,独特的上下文依存关系有助于场景理解。因此,我们提出了一个上下文先验模型来对上下文内和上下文间建模。同时,上下文先验需要一些空间信息来推理这种关系。为此,我们在上下文先验层中集成了一个聚合模块。
表2表明,随着过滤器大小的增加,没有上下文先验的模型获得了接近的结果。但是,借助上下文先验,每个模型都可以稳定地实现改进。同时,随着滤波器尺寸的增加,改进逐渐增加。当滤波器大小为11时,性能(43.92%mIoU)和相对增益(2.41%)达到峰值。如果我们继续增加滤波器的尺寸,性能和相应的改进都会下降。换句话说,上下文先验需要适当的局部空间信息来推理关系。
(2)推广到其他空间信息聚合模块。为了验证所提出的上下文先验的泛化能力,我们进一步将聚合模块替换为PPM或ASPP模块,以在亲和损失的监督下生成上下文先验图。如表3所示,上下文先验可以比不使用上下文先验的PPM进一步提高mIoU 1.06%,比ASPP模块高2.3%,比聚合模块高2.41%。这项改进证明了我们的上下文先验算法的有效性和泛化能力。 此外,如果没有上下文先验,与PPM和ASPP模块相比,我们的聚合模块还可以获得最高的性能。
先验图的可视化。为了更深入地了解我们的上下文先验,我们从ADE20K验证集中随机选择了一些示例,并可视化了图6中学习到的上下文先验图。我们使用聚合模块在没有亲和力损失指导的情况下生成注意力图。与理想亲和力图相比,我们观察到该注意力图实际上具有学习这种关系的大致趋势。借助亲和力损失,我们的上下文先验层可以学习具有更明确的结构信息的先验图,从而有助于优化预测。
在这里插入图片描述
与最新技术的比较。我们使用表4上的其他最新算法进行比较实验。所提出的CPNet达到46.27%的mIoU和81.85%的pixAcc,与以前的最新方法相比表现出色,甚至超过了基于ResNet-269的2017年COCO-Place Challenge的冠军。我们的CPNet50(以ResNet-50为骨干)达到44.46%mIoU和81.38%pixAcc,甚至比具有更深层的ResNet-101和RefineNet的PSPNet [49],PSANet [50]和SAC [47]都具有更高的ResNet-152 骨干。 这项重大改进体现了我们的“上下文先验”的有效性。

在这里插入图片描述

4.3.PASCAL-Context上的评估

数据集描述。PASCAL-Context [30]是一个场景理解数据集,其中包含来自PASCAL VOC 2010的10,103张图像。这些图像被重新标注为像素级分割图,同时考虑了物料和物料类别。 该数据集可以分为用于训练的4,998张图像和用于测试的5,105张图像。 最常见的59个类别用于评估。
与最新技术的比较。表5显示了与其他最新方法的性能比较。 我们的算法在验证集上达到了53.9%的mIoU,并且比最新的EncNet高出1.0个百分点。 与[1、25、49、10、45、11]相似,我们使用多尺度和翻转测试策略评估模型。 尺度包含{0.5,0.75,1,1.5,1.75}。
在这里插入图片描述

4.4. Cityscapes上的评价

数据集描述。Cityscapes [8]是大型城市街道场景的解析基准。 它包含用于训练的2,975张精美注释图像,用于验证的500张图像,用于测试的1,525张图像以及用于训练的额外20,000张粗注释图像。 我们仅在实验中使用精细注释集。 它包括19个评估类别。
与最新技术的比较。表6列出了其他最新方法和我们的CPNet的性能结果。 我们在实验中采用了多尺度和翻转的测试策略。 在开创性工作[32,43,42]之后,我们同时使用训练精细集和测试精细集训练模型,以提高测试集的性能。 仅使用优良的数据集,我们的CPNet在Cityscapes测试集中的mIoU达到81.3%,优于基于DenseNet-161 [17]的DenseASPP 0.9个百分点。

5.结束语

在这项工作中,我们为场景分割构造了一个有效的上下文先验。 在建议的亲和力损失的监督下,它区分了不同的上下文依赖性。 为了将上下文优先级嵌入到网络中,我们提出了一个上下文优先级网络,它由骨干网和上下文优先级层组成。 聚合模块用于聚合空间信息以推理上下文关系,并嵌入到上下文先前层中。 大量的定量和定性比较表明,所提出的CPNet与最新的最新场景分割方法相比表现出色。

致谢

这项工作得到了国家自然科学基金(No. 61433007和61876210)的支持。

参考文献

在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值