CVPR 2023 Curricular Contrastive Regularization for Physics-aware Single Image Dehazing 个人学习笔记

用于物理感知单图像去雾的课程对比正则化

代码下载:

https://download.csdn.net/download/zhouaho2010/88588360

Abstract
考虑到不适定的性质,发展了单图像去模糊的对比正则化,引入了来自负图像的信息作为下界。然而,对比样本是非一致的,因为阴性通常距离清晰(即正)图像很远,使解空间仍然不足。此外,深度脱雾模型的可解释性对脱雾过程的物理研究还没有得到充分的探索。在本文中,我们提出了一种新的课程对比正则化,目标是一个自愿对比空间,而非非自愿对比空间。我们的负片提供了更好的下界约束,可以从1)模糊图像和2)通过其他现有方法进行相应的修复。此外,由于清晰图像和负图像嵌入的相似性不同,多个成分的学习难度本质上是不平衡的。为了解决这个问题,我们定制了一个课程学习策略来重新衡量不同负面因素的重要性。此外,为了提高特征空间的可解释性,我们根据大气散射模型建立了一个具有物理感知能力的双分支单元。通过该单元,以及课程对比正则化,我们建立了我们的脱雾网络,命名为C2PNet。大量的实验表明,我们的C2PNet显著优于最先进的方法,在SOTSindoor和户外数据集上,极端PSNR提升分别为3.94 dB和1.50 dB。
1. Introduction
        雾霾作为一种常见的大气现象,明显降低了拍摄图像的质量,严重限制了后续的高级视觉任务的表现,如车辆再识别[7]和场景理解[35].与其他图像恢复任务求解器[12,13,39,43]的出现类似,需要有效的图像脱模糊技术来处理基于视觉的应用程序。
        基于深度学习的方法在单图像脱模糊方面取得了巨大的成功,可以大致可以分为两类:无物理方法[5,10,17,24]和物理感知方法[4,8,11,34]。对于前者,它们通常使用预测恢复的地面真实图像来加强基于L1/L2距离的一致性,还涉及各种正则化[29,42]作为附加约束来应对不适定特性。请注意,所有这些正则化都忽略了来自负图像的信息作为下界,我们提出了对比正则化(CR)[40]来引入不同的模糊性图像为负,地真图像为正,并进一步使用对比学习[19,20]来保证一个封闭的解空间。此外,研究表明,由于不同的退化模式作为线索,使用更多的负片可以获得更好的性能。然而,问题是这些负内容的内容与正的内容是不同的,它们的嵌入可能太遥远,使得解决方案的空间仍然没有受到限制。
        为了解决这个问题,一个自然的想法是使用共识对比空间1中的负项(见图1中的下面板)作为更好的下限约束,它可以很容易地从模糊的输入和相应的修复中组装起来。在这种情况下,消极可能比非共识空间的“更接近”积极,因为这些消极的多样性更与雾(或雾残留)有关,而不是任何其他语义。然而,当负的嵌入太接近正的嵌入时,就会出现一个内在的困境,因为它对锚点的推力(即预测)可能会抵消正的的拉力。这样的学习困难可能会混淆锚,以向积极的方向移动,特别是在早期的训练阶段。

图1.上面板:基于共识对比空间中阴性的三个难度级别的对比正则化检查。下面板:自愿和非自愿空间的对比样本说明。 Upper panel: Examination for contrastive regularization based on three difficulty levels of the negatives in the consensual contrastive space. Lower panel: Illustration of contrastive samples in the consensual and non-consensual spaces.
        这种直觉在图1的上面板中被进一步检验。我们使用FFA-Net [33]作为基线(第(a)行),sot-室内[28]作为测试数据集,以探索共识空间中负面因素的影响。具体来说,我们将负项的难度定义为三个级别:简单(E)、硬(H)和超硬(U)。我们采用模糊的输入作为容易产生的负值,并使用粗糙的策略来区分后两种类型,即负值的PSNR是否大于30。首先,在单负情况下(第(b)-(d)行),一个有趣的发现是,使用硬样本相比,作为负获得了最好的性能,使用超硬负甚至比基线更差。这表明,一个“接近”的负值有可能促进去雾模型的有效性,但并不是由于学习困难而越接近越好。而在多负情况2(行(e)-(g))中,我们观察到全面覆盖不同程度的负值,包括超硬样本,可以导致最好的性能。这意味着在不同的差异水平上的负面影响都可能有助于训练阶段。这些观察结果激励我们探索如何在训练过程中明智地将共识空间中的多个负对纳入CR。
        继续进入具有物理意识的深度模型领域,它们大多在原始空间中利用大气散射模型[31,32],而没有充分探索有益特征级信息。PFDN [11]是唯一一个试图将物理模型表示为网络中的一个基本单元的工作。该单元被设计为一个共享结构,以预测与大气光和透射图对应的潜在特征。然而,前者通常被认为是均匀的,而后者是非均匀的,因此它们的特征不能以同样的方式来近似。因此,如何利用物理模型准确地实现深度网络特征空间的可解释性仍然是一个有待解决的问题,这是我们感兴趣的另一个方面。
        在本文中,我们提出了一种课程对比正则化,使用模糊或恢复的图像作为负片在共识空间中的图像去模糊来解决第一个问题。根据我们的分析表明,共识否定的困难会影响正则化的有效性,我们提出了一个课程学习策略来安排这些否定,以减少学习的模糊性。具体来说,我们将负对分为三种类型(即简单、硬和超硬),并为CR中相应的负对分配不同的权重。同时,在训练过程中,随着锚点向表示空间中的正值方向移动,负值的差异水平被动态调整。这样,所提出的正则化方法可以使脱雾模型在更紧凑的解空间中得到稳定的优化。
        关于第二个问题,我们提出了一个具有物理意识的双分支单元(PDU)。PDU分别逼近大气光对应的特征和双分支的透射图,并考虑各因素的物理特征。因此,可以根据物理模型更精确地合成潜在的清晰图像的特征。最后,我们建立了C2PNet,这是我们的脱雾网络,它将pdu部署到一个具有课程对比正则化的级联骨干中。
        综上所述,我们的主要贡献如下:
  • 我们提出了一种新的C2PNet去除阴霾,采用课程对比正则化,并在特征空间中加强基于物理的先验。我们的方法在合成场景和真实场景中都优于sota。特别是,我们在sots-室内和sots-室外数据集上分别实现了3.94 dB和1.50 dB的显著PSNR提升。
  • 提出的正则化采用了一种独特的基于共识的负化方法,并包含了一种独立的课程学习策略,该策略动态校准负的优先级和难度水平。作为一种广义正则化技术,它可以提高sota的性能,超过了以往的相关策略。
  • 仔细考虑所涉及因素的特点,我们基于一个前所未有的物理模型表达式建立了PDU。这种创新的设计在物理先验的指导下,促进了特征空间中的特征传输和提取。
2. Related Work
Single Image Dehazing. 传统的单图像脱雾方法主要基于大气散射模型[31]。他们专注于设计手工制作的先验,如暗通道先验[21]和颜色衰减先验[44]。然而,这些先验可能不足以强大,不足以在实践中描述复杂的场景。早期基于学习的方法[4,34]使用深度神经网络来预测物理模型中的透射图和大气光,以获得潜在的清晰图像。然而,估计中的不准确性可能会累积,阻碍了对无雾图像的可靠推断。随着大型雾霾数据集[28]的出现,数据驱动的方法[8,17,30,33]得到了迅速的发展。FFANet [33]引入了功能注意(FA)块,利用通道和像素注意来改善雾霾去除。DeHamer [17]将CNN和变压器结合起来进行图像去模糊,它可以聚集变压器中的长期注意力和CNN特征中的局部注意力。注意,这些方法没有考虑雾过程的物理。此外,Dong等人提出了一个基于物理模型的特征脱雾单元(FDU)[11]。据我们所知,这项工作是唯一一个考虑到特征空间中的物理模型的工作,避免了在原始空间中发生的累积误差。然而,FDU使用共享结构来预测这些未知因素,而没有考虑它们不同的物理特征。为了解决这一问题,我们重新理解了物理模型,并构造了一个新的物理感知双分支单元,用于图像去雾。
Contrastive Learning. 近年来,对比学习被广泛应用于高级视觉任务[6,16,18,20]。对比学习背后的思想是将一个锚点拉得更接近一个正点,同时通过对比损失将其从一个负点拉开。然而,只有少数研究人员将对比学习应用于低水平的视觉问题。CR [40]是其中一部具有代表性的作品,它引入了图像去模糊的负点的概念。CR将负信息作为解空间的下界,可以同时利用正信息和负信息进行训练。然而,大多数的负是非一致的,因此远离正的代表,导致一个欠不足的解空间。我们的目标是解决这个问题与一个新的课程对比正则化方法,使用共识的否定。
Curriculum Learning.课程学习。受人类认知系统的启发,Elman [15]强调了在神经网络训练中从小训练的重要性,这可以被认为是课程学习的原型。后来,Bengio等人[3]正式提出了课程学习策略,根据他们的差异来安排训练样本。目前,课程学习已成功地应用于各种案例,包括视觉和语言任务[14,25,36,41]。基于我们的分析,不同的共识阴性表现出不同的学习困难,问题出现了如何在训练期间安排这些样本。我们建议通过一个独立的课程学习策略来解决这个问题。
3. Method
3.1. Overview
我们的目标有两个方面: 1)促进去除雾霾的特征空间的可解释性,2)使用对比样本建立一个更简洁的解决方案空间。图2显示了我们的C2PNet的详细结构。为了实现我们的第一个目标,我们设计了一个来自大气散射模型的物理感知双分支单元。关于我们的第二个目标,我们使用双方同意的否定来定制一个对比正则化,以及一个独立的课程学习策略来处理学习困难。请注意,我们的课程对比正则化是与网络无关的,使其适用于其他脱雾网络。
3.2. Physics-aware Dual-branch Unit 具有物理感知的双分支单元
大气散射模型通常用于描述一个有雾图像I,它可以数学表示I(x) = T (x)J (x) +(1−T(x)),J表示清晰的图像,T传输地图,A表示大气光,x表示像素的指数。由于T和A都是未知的,雾霾去除是一个高度不适的问题。基于原始空间的方法直接估计这两个未知因素,这很容易导致累积误差。相比之下,实施物理先验特征空间可以鼓励与模糊过程的可解释性,不依赖于T和a的地面真理受FDU [11]启发,我们提出一个物理感知双分支单元(PDU)来自物理模型的特征空间,如图3所示。

首先,我们重新制定了物理模型来表示清晰的图像J如下:

式中表示卷积算子,表示阿达玛积Hadamard product.。因此,我们分别引入了k、J、I、A、1T的矩阵向量形式,即K、J、I、A、D和等式(2)可以重写为

这样的重新形成的公式可以通过代数操作的几个步骤来给出。注意,对角线矩阵D的对角线向量对应于1/T的向量化形式。

接下来,我们可以将矩阵KD分解为两个矩阵QK的乘积。由于K,D和Q都是未知的,实现这种分解可以表示为求解一个欠确定的方程组,它可以保证Q的存在,然后,我们有

        我们可以将˜A表示为大气光对应的特征KA的近似,将t˜表示为Q的近似,这与传输图有关。此外,KI和KJ可以分别看作是一个模糊图像及其对应的清晰图像的提取特征。基于等式的(4),假设特征t˜的信道数与输入特征˜的信道数匹配,我们可以计算出物理感知特征J˜
其中,1表示一个元素均为1的矩阵。
        请注意,在等式的右边的第二项(5)涉及˜a和t˜之间的协同作用,但被FDU忽略。然后我们可以显式地基于等式构建PDU (5).PDU中的一个分支(见图3的上部)用于生产˜A。由于大气光通常被假定为均匀的,因此我们使用全局平均池化(GAP(·))来消除特征空间中不必要的信息。而˜A是由

其中σ(·)为Sigmoid函数,H(·)表示一个复制操作,ConvN(·)为具有N个核的卷积层,N设为64。

        另一方面,由于信息的丢失,我们不能将GAP(·)应用于Q的近似,因为传输图是非齐次的。因此,在图3的下一个分支中,我们选择使用一个卷积层序列来提取t˜,它由

利用所提出的PDU,可以从输入特征M中生成可解释的特征J˜,用于恢复模糊图像。FDU使用GAP(·)共享结构来预测同时与T和a同时相关的潜在特征,而PDU则专注地结合了这两个因素对应的物理特征。这种方法允许在双交互范式中估计更多有用的特性。

3.3. Curricular Contrastive Regularization
对于图像去模糊的正则对比正则化,锚是去模糊网络恢复的结果,正是地面事实,负包括模糊输入和多个与正不一致的模糊图像。这个正则化R的目标是最小化锚的嵌入与正之间之间的l1距离,同时最大化它们与负之间的距离,这是由:

Ei=||Vi(我)−Vi(f(我,θ))||1,f(·,θ)表示去除网络参数θ,Vi(·),我= 1,2,····n提取预先训练的隐藏特性VGG- 19 [37],非自愿的否定{Uq}的数量是r,{ξi}是超参数的集合。如图4所示,引入的锚点和非共识负值之间的对比不能提供一个令人满意的解空间的下界。非自愿的阴性通常远离阳性,导致溶液空间收缩不足,限制了修复的质量。

       

 基于我们对图1的分析,我们提出了一种新的对比正则化来去除雾霾,它利用共识空间中的负值,可以从其他去雾模型中恢复结果。我们的直接目标是让锚点远离质量更好的负面影响。然而,出现了两个关键问题: 1)如何定义不同消极的难度;2)如何根据训练中的难度安排这些消极。

        为了解决这两个问题,我们将课程学习策略纳入对比正则化中。我们将消极因素的难度定义为三个层次:简单、硬和超硬。对于简单的否定,我们始终使用模糊的输入。其他缺点的难度水平是在训练过程中动态确定的。具体来说,我们在每个纪元开始之前测量网络的平均PSNR性能。在第t个时期,当一个负样本的PSNR高于网络性能时,则被定义为超硬样本,否则则被定义为硬负样本。

        为了正确地安排这些负面影响,我们根据它们的难度水平进行不同的权衡。首先,容易负值的权重是固定的和最大的。这是因为,尽管硬和超硬的否定可能有助于一个更紧凑的解决方案空间,但它们也会导致学习模糊性。为了确保合力是正的,这样锚就向所期望的方向移动,我们给容易负一个足够大的重量。在实践中,我们将这个权重设为非容易的负数z的数量。第二,一个非易负Sq的权重定义如下:

其中{Ig}为模糊输入数据集,q = 1、2,···,z为非容易负值的索引,γ为超参数。硬负极和超硬负极的权重分别设置为1 + γ和1−γ。这意味着硬负的权重大于超硬负的权重,允许硬负提供更大的力量,并减轻潜在的学习模糊性。此外,该策略在确定难度水平方面的灵活性使得超硬阴性在训练后期成为硬阴性(见图4)。这是有意义的,因为随着锚的质量的提高,超硬样品造成的模糊性减少,其重要性应该得到加强。这样,硬和超硬负可以看作是有效约束解空间的更好的下界。然后,我们的课程对比正则化R∗表述如下:

最后,我们的总目标L,它由一个基于L1范数的保真度项和我们的对比课程正则化组成,由

3.4. Network Architecture
我们的C2PNet采用了一个类似于FFA-Net的主干,因为: 1) FFA-Net有一个简单的结构,级联多个没有任何其他冗余模块的FA块,和2)FA块是简单的,已经被证明是实用的。由于所提出的PDU主要侧重于细化空间信息,因此我们通过替换PA模块,将其部署到每个FA块中。通过这种方式,在输入后续模块之前,强制执行特性以符合模糊过程。请注意,除pdu外,C2PNet的所有其他网络参数都与FFA-Net相同。
4. Experiments
4.1. Experimental Settings
Implementation Details.我们在NVIDIA RTX 3090 GPU上使用Pytorch 1.11.0实现了C2PNet。Adam优化器用于指数衰减率β1 = 0.9和β2 = 0.999。初始学习速率设置为0.0001,并采用余弦退火策略[22]进行调度。批处理大小被设置为2。我们根据经验将200个时代的惩罚参数λ设置为0.2,γ设置为0.25。我们遵循在等式中设置L1距离的CR [40](10)根据固定的预训练的VGG-19的第1、3、5、9、13层的潜在特征,其对应的权重分别为ξi、i = 1、···、5~1 32 、1 16、1 8 、1 4 、1。
Datasets.。为了公平的比较,我们在合成数据集和真实数据集上评估了所提出的方法。riske[28]是一个广泛使用的基准数据集。在这五个子集中,我们选择ITS和OTS作为我们的训练数据集,而-室内和sot-室外作为我们合成图像去雾的测试数据集。我们还使用了两个真实世界的数据集:密集的-Haze[1]和NH-Haze2 [2]来进行真实的图像去雾处理。
Competitors and Evaluation Metrics.。We compare our method with the prior-based method (e.g., DCP [21]), physical model based methods (e.g., DehazeNet [4], AODNet [27], and DM2F-Net [9]), and hazy-to-clear image translation based methods (e.g., GDN [29], GCANet [5], FFA-Net [33], MSBDN [10], AECR-Net [40], MAXIM- 2S [38], DeHamer [17], and UDN [23]).我们利用峰值信噪比(PSNR)和结构相似度(SSIM)来评估性能。
4.2. Comparison with SOTAs
Results on Synthetic Datasets.合成数据集的结果。关于合成数据集的评价,见表。1报告了SOTSindoor和sot-户外数据集的平均PSNR和SSIM值。与其他sota相比,我们的C2PNet在两个数据集上都取得了最好的性能,SOT辛门有42.56 dB PSNR和0.9954 SSIM,SOTS户外有36.68 dB PSNR和0.9900 SSIM。具体来说,我们的方法在室内sots上显著优于第二优的方法UDN,即3.94 dB PSNR和0.0045 SSIM。 Moreover此外,我们的方法在室外sots上实现了至少1.50 dB PSNR和0.0029 SSIM的性能提高。 In addition此外,我们分别将图5和图6中的不同方法从sots-室内和sots-室外数据集恢复的图像进行可视化。可以看出,AODNet和GDN并不能去除大部分的雾霾,而FFA-Net、MAXIM-2S和DeHamer存在严重的颜色失真,它们的结果仍然存在一些伪影。相反,我们的方法生成了最自然的修复,保留了更多的细节,并涉及到更少的颜色扭曲。请注意,我们可以调整网络中的块的数量,以平衡性能和参数的数量。更多的细节包括在补充资料中。
Results on Real-world Datasets. 我们还在包括森林雾霾和NH-Haze2数据集在内的真实数据集上评估了所提出的C2PNet,并总结了表1中的定量结果。值得注意的是,从现实世界的图像中去除雾霾比从合成图像中更具挑战性。然而,我们的方法在PSNR和SSIM方面,在这两个数据集上的性能都优于所有其他竞争对手。我们还将结果可视化于图7中。尽管所有比较的重建一般都远远不够好,但我们的方法产生了最理想的图像,成功地消除了大部分的烟雾。
4.3. Ablation Study
在本节中,我们分析了所提出的C2PNet的不同组成部分的有效性,包括PDU、基于双方同意的否定的对比正则化(双方同意的CR)和课程对比正则化(C2R)。我们的基础网络是FFA-Net,随后,我们建立了5个变体,包括1)基础+FDU:在FA块中用FDU替换PA模块。2)基础+PDU:用FA块中的PDU替换PA模块。3)基+PDU+CR(非自愿,1:10):在基+PDU中加入典型对比正则化,阳性和阴性样本之间的比率为1:10。4)基于+PDU+CR(双方同意,1:7)+w/o CL:添加没有我们的课程策略(CL)的双方同意的CR来基于+PDU,阳性和阴性样本之间的比率为1:7。5)我们的版本:我们的C2PNet的完整模型。我们在表2中列出了结果,使用ITS数据集进行训练,sot进行室内测试。

Effectiveness of PDU. PDU的体系结构来源于等式(5)考虑到a和T的物理特性,引入了双分支相互作用来预测这两个因素。由于A和T对应的特征被我们的PDU解缠,所以潜在的结构特征级的信息被挖掘得更准确。因此,在表2中,我们可以看到PDU比基础+FDU和基础网络分别获得1.71 dB和1.91 dB.
Effectiveness of consensual CR.我们遵循与非自愿CR相同的设置,由于训练时间和GPU记忆限制,最多考虑10个阴性,我们使用最优的阴性数进行公平比较,即7(自愿CR)和10(非自愿CR)。可以观察到,自愿CR显著提高了对+PDU和+PDU+CR(非自愿,1:10)的性能,PSNR分别提高了3.79 dB和0.77 dB。请注意,我们的训练时间加速到137小时,而非自愿的CR则为200小时(1:10)。这些事实加强了双方自愿的CR的优越性。更多的分析可以在补充资料中找到。
Effectiveness of C 2R.我们的全网络在训练过程中采用所提出的CL策略进行双方一致的CR,与所有变体相比表现最好。与基础+PDU+CR(共识,1:7)+w/o CL相比,C2PNet在PSNR中增加了0.57 dB,揭示了所提出的C2R的有效性。
4.4. Generality Analysis for C 2R   C2R的一般性分析
        为了进一步验证我们的C2R的通用性,我们将其应用于不同的SOTA方法,并将其与其他几种通用的正则化方法进行了比较。结果汇总见表3。与其他正则化方法相比,我们的方法在所有5个sota上的PSNR和SSIM上都取得了显著的改善,除了SSIM比GDN上的共识CR略有降低了0.0012。具体来说,我们的C2R提高了5个基线模型的性能,具有0.70-3.30dB的平均PSNR改进,并且通过0.93-2.10dB的平均PSNR改进,优于CR(非自愿,1:10)。特别是,与流行的自定速CL策略[26]相比,我们的CL方法在PSNR中最大增加了0.71个dB。可能的原因是,使用自定节奏策略会将负片逐步引入正则化阶段,导致1)在不考虑超硬负片的情况下进行两级难度划分,2)所有引入的负片具有相同的权重。然而,正如我们之前分析的,硬样本和超硬样本都可以为训练过程中的正则化提供有用的信息,相应的权重需要精细地分别分配。
5. Discussion and Limitation
现有的去雾模型的一个重要优势是在恢复中嵌入了后去雾先验,例如雾霾残留物的分布,这可以表明一个更具有挑战性的模式,是难以去除的。这可以在培训期间为模型提供有价值的信息。然而,由于大多数现有的方法在现实场景中表现不佳,很难收集高质量的图像作为不容易(特别是超硬)的缺点。这可能会限制我们的模型的能力,尽管在现实世界的脱雾处理方面取得了有希望的性能。
6. Conclusion
本文提出了一种新的用于单图像去模糊的C2PNet。我们不使用非自愿的负,而是引入非自愿的负来构造对比样本,然后应用课程对比正则化,考虑负的困难来约束一个更紧凑的解空间。为了提高特征空间的可解释性,我们进一步设计了一个基于物理模型的物理感知双分支单元。该装置产生的特性被强制执行,以符合雾霾的过程,从而促进了雾霾的去除。大量的实验证明了该方法的有效性和通用性。
  • 22
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值