Improving Nighttime Driving-Scene Segmentationvia Dual Image-adaptive Learnable Filters

摘要

在自动驾驶中,对驾驶场景图像进行语义分割对于实现自主驾驶至关重要。尽管在白天图像上取得了令人鼓舞的性能,但由于曝光不足和缺乏标记数据,夜间图像的性能较差。为了解决这些问题,我们提出了一个称为双图像自适应可学习滤波器(DIAL-Filters)的附加模块,以提高夜间驾驶条件下的语义分割性能,旨在利用不同照明下驾驶场景图像的固有特征。

DIAL-Filters包括两部分,包括图像自适应处理模块(IAPM)和可学习引导滤波器(LGF)。通过DIAL-Filters,我们设计了夜间驾驶场景分割的无监督和监督框架,可以进行端到端的训练。具体而言,IAPM模块包括一个小型卷积神经网络和一组可微分的图像滤波器,其中每个图像可以根据不同的照明得到自适应增强,以实现更好的分割效果。LGF用于增强分割网络的输出,从而获得最终的分割结果。DIAL-Filters轻量且高效,可以方便地应用于白天和夜间图像。我们的实验证明,DIAL-Filters可以显著提高对ACDC夜间和NightCity数据集的监督分割性能,同时在Dark Zurich和夜间驾驶测试平台上展示出无监督夜间语义分割的最先进性能。代码和模型在 GitHub - wenyyu/IA-Seg: The code for "Improving Nighttime Driving-Scene Segmentation via Dual Image-adaptive Learnable Filters".

介绍

语义分割旨在将图像划分为具有相同对象类别的多个区域。作为计算机视觉中的基本任务,语义分割广泛应用于自动驾驶[1]、室内导航[2]、[3]和虚拟现实[4]等领域。通过利用卷积神经网络强大的特征表示能力,基于深度学习的语义分割方法[5]–[10]在传统的白天数据集[11]、[12]上取得了令人鼓舞的成果。然而,这些方法在恶劣的夜间光照情况下的泛化能力较差,而这对于实际应用,如自动驾驶,至关重要。在这项工作中,我们将注意力集中在夜间驾驶场景中的语义分割任务上。

夜间驾驶场景分割面临两个主要挑战其一是在视觉感知较差的情况下获取大规模标记的夜间数据集的困难。为此,最近开发了几个夜间数据集[13],[14]。NightCity [13]包含2,998张标记的夜间驾驶场景图像,而ACDC Night [14]有400张图像,可用于监督训练。另一个挑战是夜间图像中的曝光不平衡和运动模糊,这很难通过现有的白天分割方法处理。为了应对这些挑战,一些领域自适应方法已被提出,将语义分割模型从白天转移到夜间,而无需在夜间域使用标签。领域自适应网络(DANNet)[15]采用对抗学习进行夜间语义分割,该方法在分割网络之前添加了一个图像重新照明子网络。这增加了大量的训练参数,不利于部署。在[16],[17]中,黄昏域被视为从白天到夜间的领域自适应的桥梁。此外,一些方法[17]–[20]将图像转换模型作为预处理阶段,以使夜间或白天图像呈现出风格化,从而构建合成数据集。通过涉及在白天和夜间之间的复杂图像转换网络,这些方法通常计算密集。特别是,当跨领域差距较大时,图像转换网络难以实现理想的转换。

在驾驶场景中捕获的夜间图像通常包含过曝光和曝光不足的部分,这严重降低了视觉外观和结构的质量。图1(a)显示了一个夜间图像的示例,其中既有过曝光的部分(街灯和车头灯),也有曝光不足的部分(背景和树木)。这种不均匀的亮度损害了图像的内容和纹理,使得准确分割物体边界变得困难。在数字成像系统中,修图专家通过调整图像增强模块的超参数来提高图像质量,包括白平衡调整、伽玛校正、曝光补偿、细节增强、色调映射等。为了避免手动调整这些参数,“白盒”图像自适应增强框架[21]–[23]被用于提高图像质量。

 为了解决上述问题,本文提出了一种巧妙的驾驶场景语义分割方法,通过双图像自适应可学习滤波器(DIAL-Filters)来提高性能,包括图像自适应处理模块(IAPM)和可学习引导滤波器(LGF)模块。具体而言,本文在IAPM模块中引入了一组完全可微分的图像滤波器(DIF),其超参数根据输入图像的亮度、对比度和曝光信息由基于小型卷积神经网络的参数预测器(CNN-PP)自适应预测。此外,使用LGF来增强分割网络的输出。引入联合优化方案,以端到端的方式学习DIF、CNN-PP、分割网络和LGF。此外,本文利用白天和夜间图像来训练所提出的网络。通过利用CNN-PP网络的优势,本文的方法能够自适应处理不同光照条件下的图像。图1展示了我们提出的方法的示例分割过程。

上面提到的图像自适应滤波技术已经在我们之前的会议论文中用于检测任务[24]。与[24]相比,我们在这项工作中做出了以下新的贡献:1)将图像自适应滤波方法扩展到夜间分割任务,并取得了最先进的结果;2)提出了一个可学习的引导滤波器,以提高对象边缘区域的分割性能;3)开发了监督和无监督分割框架。

本文的主要贡献总结如下:
提出了一种轻量级的新型附加模块,称为DIAL-Filters,可以轻松添加到现有模型中。通过在分割网络之前和之后进行双重增强,它能够显著提高夜间图像的分割性能。
• 以端到端的方式训练我们的图像自适应分割模型,确保CNN-PP能够学习适当的DIF来增强图像以进行分割,并学习LGF以保持边缘和细节。
• 监督实验表明,本文提出的方法能够显著改善ACDC Night和NightCity数据集上的分割性能。在Dark Zurich和Nighttime Driving测试平台上的无监督实验表明,我们的方法在无监督夜间语义分割方面达到了最先进的性能。

相关工作 

A  语义分割

图像语义分割对于许多视觉理解系统至关重要,由于卷积神经网络(CNNs)的发展,它在基准数据集上的性能得到了极大的提升。FCN [25]被认为是一个里程碑,它展示了在可变大小的图像上以端到端的方式训练深度网络进行语义分割的能力。基于多层级的方法[6],[7]采用多尺度分析来提取全局上下文,同时保留低级别的细节。此外,卷积层被用来生成最终的逐像素预测。DeepLab及其变体[26]–[28]引入了Atrous卷积和Atrous空间金字塔池化到分割网络中。

所有上述方法都集中在白天条件下的分割任务。在本文中,我们关注夜间场景。为了研究提出的DIAL-Filters在夜间驾驶场景分割中的有效性,本文选择了三个流行且广泛使用的分割网络作为基线,包括RefineNet [6]、PSPNet [7]和DeepLabV2 [26]。

B  图像自适应

图像自适应广泛应用于低级和高级任务。对于图像增强,一些传统方法[29]–[31]根据相应的图像特征自适应计算图像变换的参数。Wang等人[31]提出了一种亮度调整函数,根据输入图像的照明分布特征自适应调整增强参数。[21]–[23]中的方法采用了一个小型CNN来灵活学习图像变换的超参数。Yu等人[22]利用一个小型CNN通过深度强化学习和对抗学习来学习图像自适应曝光。胡等人[21]提出了一个后处理框架,其中使用深度强化学习(DRL)根据修饰图像的质量生成图像操作和滤波器参数。对于高级检测任务,Zhang等人[32]提出了一种改进的Canny边缘检测方法,该方法使用整个图像的梯度均值来自适应选择双阈值。IA-YOLO [24]提出了一个轻量级CNN来自适应预测更好的检测性能的滤波器参数。受到这些方法的启发,本文采用图像自适应来进行夜间驾驶场景的分割。

C   领域自适应

领域自适应方法[33]–[37]在许多任务中取得了令人鼓舞的性能,例如分类、目标检测、行人识别和分割。领域自适应的语义分割方法大致可以分为三类,包括对抗学习(adversarial learning)[37]–[39]、自我训练(self-training)[40]–[42]和课程学习(curriculum learning)[43]、[44]。

基于对抗学习的方法通过对抗训练的方式减小了两个领域之间的分布差异。AdaptSegNet [37]提出了一个多级对抗网络,有效地在不同的特征层次上执行输出空间的领域适应。一些方法[38],[39]还通过基于像素级预测的熵方案解决了无监督领域自适应分割问题。自我训练方法利用来自源领域预训练模型生成的伪标签对无标签目标数据进行训练。举例来说,Zhang等人[41]研究了原型的特征距离,以微调伪标签,并将预训练知识提炼到自监督模型中。Xie等人[40]提出了一个一阶段端到端的自适应网络,通过语义引导的像素对比学习实现领域对齐。基于课程学习的方法[43],[44]采用课程学习的方式学习目标域的易学属性,然后将其用于正则化最终的分割网络。

然而,大多数这些领域自适应方法关注的是从合成到真实的适应(例如,GTA5 [45] 到 Cityscapes)或跨城市的适应(例如,Cityscapes 到 Cross-City [46]),这些都是白天(图像)到白天(图像)的适应。因此,这些方法通常无法妥善处理白天和夜晚图像之间的显著适应差距,无法在夜间分割中取得令人满意的性能[15]。在本文中,专注于白天和夜晚领域之间的适应。

D   夜间驾驶场景语义分割

虽然大多数现有的研究集中在“正常”场景中,即光照充足的场景,但也有一些研究致力于解决具有挑战性的场景,如夜晚场景。一些研究者采用基于领域适应的方法[16],[17],[20],将在正常场景中训练的模型转移到目标领域。在[16]中,提出了一种渐进适应方法,通过黄昏时段的桥梁,从白天适应到夜晚。Sakaridis等人[17],[20]提出了一种基于DMAda [16]的引导课程适应方法,通过逐渐适应分割模型从白天到夜晚,使用合成标注图像和未标注真实图像。然而,在这些渐进适应方法中,为不同领域训练的额外分割模型显著增加了计算成本。一些研究[18],[19],[47]训练了额外的风格转移网络,例如CycleGAN [48],在训练语义分割模型之前执行从白天到夜晚或从夜晚到白天的图像转移。这些方法的缺点是后续分割网络的性能高度依赖于先前的风格转移模型。

最近,吴等人[15],[49]提出了一种无监督的一阶段适应方法,在分割网络的前端放置了一个图像重照明网络。采用对抗学习实现了标记的白天数据和未标记的夜晚数据之间的领域对齐。不幸的是,额外的RelightNet带来了大量的参数和计算。

与上述方法相比,本文提出了一种图像自适应分割方法,通过将提出的DIAL-Filters嵌入到分割网络中来进行夜间分割。本文的方法还可以通过对抗损失进行无监督域适应训练,这在性能和效率方面都具有显著的优势。

双图像自适应可学习滤波器(Dual Image-Adaptive Learnable Filters)

夜间拍摄的驾驶场景图像由于光照较弱而能见度差,这导致了语义分割的困难。由于每个图像可能包含过曝光和曝光不足的区域,因此缓解夜间分割困难的关键是处理曝光差异。因此,我们建议使用一组双图像自适应可学习滤波器(DIAL-Filters)在分割网络之前和之后增强结果。如图2所示,整个流程包括图像自适应处理模块(IAPM)、分割网络和可学习引导滤波器(LGF)。IAPM模块包括基于CNN的参数预测器(CNN-PP)和一组可微分图像滤波器(DIF)。

 A   图像自适应处理模块

(1)可微图像滤波器(Differentiable Image Filters,DIF)

与[21]中的设计一样,图像滤波器的设计应符合可微分性和分辨率独立性的原则。为了进行基于梯度的CNN-PP优化,滤波器应可微分,以允许通过反向传播进行网络训练。由于CNN可能会消耗大量计算资源来处理高分辨率图像(例如4000×3000),我们从大小为256×256的降采样低分辨率图像中学习滤波器参数。此外,相同的滤波器被应用于原始分辨率的图像,使这些滤波器独立于图像分辨率。

我们提出的DIF由多个可调节的超参数的可微分滤波器组成,包括曝光(Exposure)、伽马(Gamma)、对比度(Contrast)和锐化(Sharpen)。与[21]中一样,标准的颜色操作符,如伽马、曝光和对比度,可以表示为逐像素的滤波器。

像素级滤波器:逐像素的滤波器将输入像素值 Pi = (ri, gi, bi) 映射到输出像素值 Po = (ro, go, bo),其中 (r, g, b) 分别表示红、绿和蓝三个颜色通道的值。这三个逐像素滤波器的映射函数列在表格 I 中,第二列列出了在我们的方法中要优化的参数。曝光和伽马是简单的乘法和幂变换。显然,这些映射函数对输入图像和它们的参数都是可微分的。

可微分对比度滤波器是通过输入参数设计的,该参数用于在原始图像和完全增强图像之间进行线性插值。如表I所示,在对比度滤波器映射函数中,En(Pi)的定义如下:

其中,Lum(Pi)为基于人眼对三原色敏感性的亮度函数,EnLum(Pi)是增强的亮度函数。它们的定义如下:

锐化滤波器:图像锐化可以增强图像的细节。类似于非锐化掩码技术[29],锐化过程可以描述如下:

其中,I(x) 是输入图像。Gau(I(x)) 表示高斯滤波器,而 λ 是一个正的缩放因子。这个锐化操作对 x 和 λ 都是可微的。值得注意的是,通过优化 λ,可以调整锐化程度以获得更好的分割性能。

(2)基于CNN的参数预测器(CNN-PP)

在相机图像信号处理(ISP)管道中,通常使用一些可调节的滤波器进行图像增强,这些滤波器的超参数通常由经验丰富的工程师通过视觉检查手动调整[50]。以找到适用于广泛场景的合适参数,这样的调整过程非常繁琐且昂贵。为解决这一限制,我们采用一个小型卷积神经网络(CNN)作为参数预测器,用于估计超参数,这样做非常高效。

CNN-PP的目的是通过理解图像的全局内容(如亮度、颜色、色调以及曝光程度)来预测DIF的参数。对于估计这样的信息,降采样后的图像已经足够,这可以极大地节省计算成本。与[23]类似,我们将小型CNN-PP应用于输入图像的低分辨率版本,以预测DIF的超参数。对于任何分辨率的输入图像,我们只需使用双线性插值将其降采样为256×256的分辨率。如图2所示,小型CNN-PP网络由五个卷积块组成,最终的全连接层输出DIF模块的超参数。当DIF的总超参数数量为4时,CNN-PP模型仅包含278K个参数。

 B   可学习引导滤波器(Learnable Guided Filter)

许多最近用于高级视觉任务的方法在其原始架构后面级联了引导滤波器以改善结果[51],[52]。引导滤波器[53]是一种保持边缘和保持梯度信息的图像操作,它利用引导图像中的对象边界来检测对象显著性。它能够抑制对象外的显著性,从而改善下游的检测或分割性能。

原始引导滤波器有一个引导图I,一个输入图像p,输出图像q。如公式(5)所示,假设q是I在以像素k为中心的窗口wk中的线性变换。

其中,(ak,bk)是一些线性系数,在wk中假设是常数。wk是半径为r的方形窗口。可以得到:

其中,µk和σk^2是I在窗口wk中的均值和方差。|w|是wk中的像素数量, 是一个正则化参数,

是wk中p的均值,对每个窗口wk进行线性变换,如(8)所示,通过对qi所有可能的取值进行平均,得到滤波输出:

其中,   是所有重叠窗口i的平均系数。为了进一步提高分割效果,我们在分割网络后面引入了一个可学习的引导滤波器(LGF)。算法1是我们LGF模块的伪代码,其中fmean表示窗口半径为r的均值滤波器,相关(corr)、方差(var)和协方差(cov)的缩写表示这些变量的原始含义。详细的推导过程可参考[53]。图3给出了LGF的体系结构。输入p是分割网络的输出,分割网络有19个通道。导图I是F(I)的输出。F(I)涉及两个具有64和19个输出通道的卷积层,仅包含1,491个参数。它确保I和p具有相同数量的通道。LGF模块与其他模块以端到端方式进行训练,确保LGF对每个图像进行自适应处理,以获得更好的分割性能并保留图像边缘。

夜间语义分割

将所提出的DIAL-Filters添加到分割网络中,形成我们的夜间分割方法。如图2所示,我们将IAPM和LGF分别插入到分割网络的头部和末端。现有的方法大多采用无监督域自适应方法去处理夜间分割。为了进行更全面的比较,本文提出了基于DIAL-Filters的有监督分割和无监督分割框架。

A. Supervised Segmentation with DIAL-Filters

1)框架

如图2所示,我们的监督夜间分割方法由IAPM模块、分割网络和LGF模块组成。IAPM模块包括一个基于CNN的参数预测器(CNN-PP)和一组可微图像滤波器(DIF)。我们首先将输入图像调整为256 × 256的大小,并将其输入CNN-PP来预测DIF的参数。然后,将DIF滤波后的图像作为分割网络的输入。对初步分割图像进行LGF滤波,得到最终分割结果。整个管道端到端进行分割损失训练,使CNN-PP能够学习合适的DIF自适应增强图像,以获得更好的语义分割

2)分割网络

根据文献[15]的方法,我们选择了三种流行的语义分割网络,包括DeepLabV2 [26]、RefineNet [6]和PSPNet [7]。所有这些方法都使用了常见的ResNet-101骨干网络 [5]。

3)重加权和分割损失

由于驾驶场景中不同目标类别的像素数量不均匀,网络很难学习到小尺寸对象的类别的特征。这导致网络在预测小目标的像素时性能较差。根据[15]的方法,我们采用重加权方案来提高网络对小尺寸目标的关注。重加权方程定义如下:

其中,am表示在Cityscapes标注数据集中被标注为类别m的像素比例。显然,am 的值越低,分配给它的权重值越高。因此,这有助于网络分割较小尺寸目标的类别。对于每个类别 m∈K,权重 被归一化如下:

其中,e是一个可调超参数,分别是wm'的均值和标准差。在训练时将e默认设置为0.05。

利用流行的加权交叉熵损失来考虑分割:

其中,P(m)表示分割结果的第m个通道,wm是公式(10)中的权重集合。N是相应的分割标注图像的有效像素数,|K|是Cityscapes数据集中标记的类别数,GT(m)为第m个类别的ground truth的one-hot编码。

B. Unsupervised Segmentation with DIAL-Filters

1)框架

Dark Zurich[54]是一个比较全面的真实驾驶场景夜间数据集,它包含了相同驾驶场景在白天、黄昏和夜间的对应图像。在我们的无监督方法中有三个域图像,包括一个源域S和两个目标域Td和Tn,其中S, Td和Tn分别表示Cityscapes(daytime),Dark Zurich- D(daytime)和Dark Zurich- N(nighttime)。如图4所示,我们的无监督夜间分割框架采用了与[15]类似的架构。提出的无监督框架由三个训练支路组成,通过权值共享IAPM模块、分割网络和LGF模块从标记的源域S到两个目标域Td和Tn进行域自适应。值得一提的是,在训练过程中,只有Cityscape中的图像具有语义标签。

2)判别器

根据文献[37]的方法,我们设计了鉴别器,通过应用对抗学习来区分分割结果是否来自目标域的源域。具体而言,我们的模型中有两个结构相同的鉴别器。每个鉴别器包含五个卷积块,输出通道为f64、128、256、256、1g。每个卷积块包括一个带有Leaky Relu的4×4卷积层。除了前两个卷积层的步幅为2外,其余的步幅为1。它们被训练以区分输出是来自S or Td,以及来自S or Tn。

3)目标函数

在训练端到端无监督框架时,对生成器使用总损失Ltotal,对判别器使用相应的对抗损失。总损失Ltotal包括分割损失Lseg,静态损失Lstatic,对抗损失Ladv

  • 分割损失:

如公式(11),取加权交叉熵损失作为分割损失。特别是,在我们的无监督框架中,只使用带注释的源域图像来优化这种损失。在无监督训练过程中,本文还设置std=0.05,avg=1.0。

  • Static Loss

考虑到Dark Zurich-D中白天图像与Dark Zurich-N中对应的夜间图像之间的相似性,我们对目标域T n夜间图像采用静态损失,如[15]所示。这支持对静态对象类别(如道路、人行道、墙壁、植被、地形和天空)的伪像素级监督。

首先,我们定义为目标域白天的分割结果,表示相应的夜晚分割预测。在计算静态损失时,我们只关注与静态类别相对应的通道。因此,我们可以得到 ,其中 Cs是静态对象类别的数量。然后,通过方程(10)我们得到了重新加权的白天分割结果 Ftd作为伪标签。最后,静态损失  定义如下:

其中,N为相应的分割标记图中的有效像素数。为正确类别的似然图,定义如下:

其中,操作 o 表示语义伪ground truth Ftd​ 的独热编码,j 是以 i 为中心的 3×3 窗口的每个位置。

  • Adversarial Loss

生成对抗训练被广泛用于对齐两个领域。在这种情况下,我们使用两个判别器来区分分割预测是来自源域还是目标域。我们在对抗性训练中使用最小二乘损失函数[55]。对抗性损失的定义为:

其中,s是源域的标签。最后,我们定义生成器G的总损失Ltotal如下:

两个判别器Ds和Dn的损失函数定义如下:

实验

在本节中,我们首先介绍实验测试平台和评估指标。然后,我们进行了无监督和有监督实验,以研究我们的方法在夜间驾驶场景语义分割中的有效性。对于有监督实验,我们在三个数据集上评估我们的方法,包括Cityscapes [12]、NightCity [13] 和 ACDC [14],这些数据集具有像素级别的语义注释ground truth。对于无监督实验,我们进行了从Cityscapes(带标签)到Dark Zurich [54]的域自适应。

A. 数据集和评价指标

对于所有实验,我们采用按类别计算的交并比的均值(mIoU)作为评估指标。以下数据集用于模型训练和性能评估。

1)Cityscapes[12]

Cityscapes是一个注重白天城市街景的语义理解数据集,被广泛用作分割任务的基准数据集。它包括19个像素级别的注释类别,包含2,975张训练图像,500张验证图像和1,525张测试图像,分辨率为2,048 × 1,024。在这项工作中,我们将Cityscapes用作有监督和无监督实验中的白天标记数据集。

2)   NightCity[13]

NightCity是一个大型的夜间城市驾驶场景数据集,具有像素级别的注释,可用于有监督的语义分割。有2,998张训练图像,1,299张图像可用于验证或测试,包含19个类别的像素级别注释。标记的对象类别与Cityscapes [12]相同。

3)ACDC[14]

ACDC是一个具有语义驾驶场景理解关系的不利条件数据集。它包含4,006张具有高质量像素级语义注释的图像,这些图像均匀分布在现实驾驶环境中四种常见的不利条件下,即雾、夜间、下雨和下雪。分辨率和标记类别与Cityscapes [12]相同。ACDC数据集包含1,000张雾图像,1,006张夜间图像,1,000张雨图像和1,000张雪图像,用于密集的像素级别语义注释。我们将ACDC_night用作有监督的实验数据集,其中包含400张训练图像,106张验证图像和500张测试图像。

4)  Dark Zurich[54]

Dark Zurich是一个设计用于无监督语义分割的城市驾驶场景的大型数据集。它包括2,416张夜间图像、2,920张黄昏图像和3,041张白天图像用于训练,这些图像都没有标签,分辨率为1,920 × 1,080。这些图像是在同一场景中在白天、黄昏和夜晚拍摄的,因此它们可以通过图像特征进行对齐。在这项工作中,我们只使用了2,416对夜晚-白天图像对来训练我们的无监督模型。Dark Zurich数据集还包括201张夜间图像,其中包含50张用于验证(Dark Zurich-val)和151张用于测试(Dark Zurich-test)的像素注释图像,可用于定量评估。Dark Zurich-test数据集仅通过官方网站提供一个验证通道。我们通过将分割预测提交到在线评估网站来获得我们提出的方法在Dark Zurich-test上的mIoU结果。

5)   Nighttime Driving[16]

夜间驾驶数据集[16]包括50幅夜间驾驶场景图像,分辨率为1920 × 1080. 与[12]类似,该数据集中的所有图像都使用相同的19个类别进行标注。在这项工作中,我们仅采用Nighttime Driving数据集进行测试。

B. Supervised Segmentation with DIAL-Filters

1)实验设置

我们采用了几种典型的骨干网络,包括DeepLabV2 [26]、RefineNet [6] 和 PSPNet [7],以验证DIAL-Filters的泛化能力。按照[15]的方法,所有实验都使用在Cityscapes上进行了150,000个epoch的预训练的语义分割模型。预训练的DeepLabV2、RefineNet和PSPNet在Cityscapes验证集上的mIoU分别为66.37、65.85和63.94。在训练过程中,我们采用尺寸为512×512的随机裁剪,裁剪比例在0.5到1.0之间,并应用随机水平翻转来扩展训练数据集。与[15]、[26]一样,我们使用随机梯度下降(SGD)优化器,动量为0.9,权重衰减为5×10^−4。初始学习率设为2.5×10^−4,然后采用多项式学习率策略,以0.9的幂递减。batch size设置为4。我们在Tesla V100 GPU上进行了实验,并使用PyTorch实现了我们的方法。

2)在Cityscapes和NightCity数据集上的实验

为了证明我们提出的方法的有效性,我们将DIAL-Filters插入三个经典的语义分割网络,并在三个有标签的数据集上进行实验。表II报告了现有方法和分别在Cityscapes(“C”列)或混合数据集(“C+N”列)上训练的提出方法的定量结果。通过在混合数据集(Cityscapes和NightCity)上进行训练并在NightCity_test上验证,我们的方法分别超过了DeepLabV2、PSPNet和RefineNet 1.85%、2.44%和2.41%。与在白天Cityscapes上训练的这些方法相比,我们的方法仍然可以在白天Cityscapes验证集上提高它们分别为0.20%、2.65%和1.30%,而混合数据训练的基线模型改进较小,甚至变得更差。这表明IAPM模块能够自适应地处理具有不同照明条件的图像,以获得更好的语义分割性能。图5展示了我们的方法和基线PSPNet(在“C+N”上训练)的几个视觉示例。可以观察到我们的方法在夜间对其他方法忽略的类别(如杆和交通标志)具有更好的分割性能。

3)在Cityscapes和ACDC_night数据集上的实验

我们在Cityscapes和ACDC_night的混合数据集上检验了所提方法的有效性。如表III所示,我们提出的带有三种骨干网络之一的DIAL-Filters在ACDC_night测试数据集上的表现均优于基线模型。图6展示了我们的方法与基线RefineNet之间的定性比较。可以观察到,所提出的IPAM模块能够通过自适应增加输入图像的亮度和对比度来显示更多目标,这对于小目标区域的语义分割是至关重要的。图7说明了CNN-PP模块如何预测DIF的参数,包括详细的参数值和每个子滤波器处理的图像。在输入图像经过学习的DIF模块处理后,揭示了更多的图像细节,有助于后续的分割任务。

C. Unsupervised Segmentation with DIAL-Filters

1)实验设置

与有监督实验一样,我们使用DeepLabV2 [26]、RefineNet [6] 和 PSPNet [7] 作为基线模型进行无监督分割实验。提出的模型通过动量为0.9和权重衰减为5 × 10^−4的随机梯度下降(SGD)优化器进行训练。与[15]类似,我们使用Adam优化器来训练鉴别器,其中β设置为(0.9,0.99)。鉴别器的学习率设置为2.5 × 10^−4。此外,我们在Cityscapes数据集上应用随机裁剪,裁剪尺寸为512,裁剪比例在0.5到1.0之间,而在Dark Zurich数据集上,裁剪尺寸设置为960,裁剪比例在0.9到1.1之间。此外,在训练中使用了随机水平翻转。其他相关设置与有监督实验一致。

2)Comparison with start-of-the-art methods

我们将所提出的方法与最先进的无监督分割方法(包括DANNet[15]、MGCDA[20]、GCMA[17]、DMAda[16]和几种领域自适应方法[37]、[39]、[42])在Dark Zurich-test 和 Night Driving上进行了比较,以证明我们方法的有效性。这些相互竞争的方法都采用了ResNet-101骨干网。具体来说,我们的方法和DANNet都用三个基线模型进行了测试。MGCDA、GCMA和DMAda使用基准RefineNet进行测试,而其余的则基于DeepLabV2。

在Dark Zurich-test上的实验结果

表IV报告了在Dark Zurich-test数据集上的定量结果。与最先进的夜间分割方法相比,我们提出的基于PSPNet的DIAL-Filters获得了最高的mIoU得分。值得一提的是,尽管我们的模型较小,但在所有三个基线模型上均优于DANNet。可以看出,使用DeepLabV2、RefineNet或PSPNet的DIAL-Filters比领域自适应方法取得了更好的性能(见表IV的第二个版块)。图8展示了MGCDA、DANNet和我们方法的几个视觉比较示例。通过提出的DIAL-Filters,我们的自适应模块能够从图像中区分出感兴趣的对象,特别是在黑暗中的小目标和混合类别的混淆区域。图9显示了CNN-PP模块如何预测DIF的参数,包括详细的参数值和每个子滤波器处理的图像。可以观察到我们提出的DIAL-Filters能够增加输入图像的亮度并揭示图像细节,这对于分割夜间图像是至关重要的

在Night Driving上的实验结果

表V报告了在Night Driving测试数据集上的mIoU结果。与最先进的夜间分割方法相比,我们的DIAL-Filters在PSPNet的基础上取得了最佳性能。尽管我们的模型较小,但当RefineNet、DeepLabV2和PSPNet作为基线时,它在分别优于DANNet 2.21%、1.96%和2.62%。此外,可以清楚地看到我们的方法在性能上优于领域自适应方法。

D. 消融实验

为了检验我们提出的框架中每个模块(包括IAPM, LGF和DIF)的有效性,我们进行了不同设置的消融实验。所有实验以监督的方式在cityscape和NightCity混合数据集上进行训练,其中权重参数在cityscape上预训练150,000 epoch。

表VI显示了实验结果。我们选择RefineNet(ResNet-101)作为基础模型,"DIAL-Filters"是我们方法的完整模型。所有实验的设置和训练数据都是相同的。可以看出,DIF预处理、LGF后处理和图像自适应IAPM都可以提高分割性能。RefineNet deep是RefineNet的深层版本,其骨干网络是ResNet-152,比ResNet-101多了15,644K个可学习参数。我们提出的方法在CNN-PP和LGF中只增加了280K个额外的参数,表现优于RefineNet deep。使用固定DIF的方法意味着滤波器的超参数是一组给定的值,这些值都在一个合理的范围内。显然,我们的DIAL-Filters方法在NightCity_test和Cityscapes_test中都取得了最佳性能,表明我们的方法能够自适应地处理白天和夜晚的图像。这对下游分割任务至关重要。此外,后处理的LGF可以进一步提升性能。图10显示了使用/不使用LGF的视觉结果。可以看到,可学习的引导滤波器获得了更精确的小目标分割边界。我们还评估了在测试数据集上提出的可微分滤波器的选择。如表VI所示,没有我们提出的四个滤波器中的任何一个,性能都会下降,但仍优于固定DIF和原始基线。这进一步证明了我们提出的可微分滤波器和自适应处理策略的有效性。

E. 效率分析

在我们提出的框架中,我们将一组具有280K可训练参数的新颖的可学习DIAL-Filters引入到分割网络中。CNN-PP有5个卷积层,1个dropout层和1个全连接层,LGF包括2个卷积层。基于RefineNet,表VII比较了我们实验中使用的一些方法的效率。所有这些方法都将一个附加模块部署到RefineNet中。第二列列出了RefineNet模型上附加参数的数量。第三列列出了使用单个Tesla V100 GPU处理大小为512 × 1024的彩色图像的运行时间。可以观察到,我们的方法只在RefineNet上添加了280K个可训练参数,同时在所有实验中取得了最佳性能,并具有可比较的运行时间。请注意,尽管我们的方法可训练参数较DANNet更少,但其运行时间略长。这是因为DIF模块中的滤波过程会引起额外的计算。

总结

在这篇论文中,我们提出了一种新颖的语义分割方法,用于适应性增强夜间驾驶条件下的每个输入图像,以获得更好的性能。具体而言,我们引入了双图像自适应可学习滤波器(DIAL-Filters),并将它们嵌入到分割网络的头部和尾部。我们开发了一个完全可微的图像处理模块,用于预处理输入图像,其超参数由一个小型卷积神经网络预测。通过可学习的引导滤波进一步增强了初步的分割结果,以实现更精确的分割。整个框架以端到端的方式进行训练,其中参数预测网络在监督实验中通过分割损失进行弱监督学习,以学习一个适当的DIF模块。我们在监督和无监督分割的实验中都展示了所提出的DIAL-Filters相对于先前的夜间驾驶场景语义分割方法的优越性。

参考链接:

论文解读:Improving Nighttime Driving-Scene Segmentation via Dual Image-adaptive Learnable Filters-CSDN博客

  • 18
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值