写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!
前言
在现实世界的不利情景中,不同的天气退化常常以不确定的方式同时发生,例如,雪夜、雨夜。在这些条件下捕获的图像不可避免地会遭受糟糕的可见性和损坏的特征残余,并且随机混合退化可能会极大地阻碍自动驾驶系统和监视系统等应用中的高级视觉任务。不幸的是,目前主流的算法单独处理每种天气退化,而忽略了联合作用的混合退化特征。
而通用网络来处理具有相同架构的不同退化(图1(b)),但针对不同的任务具有不同的权值。为了解决这一问题,最近的研究旨在使用单一统一模型恢复多种不利条件下的图像(图1( c))。然而,这些方法仍然无法解决混合恶劣天气条件。尽管很少有研究部分探索了恢复两种天气叠加的场景,但它们是为专门的组合(例如,雨带和雨滴)而设计的,无法扩展到其他现实世界的多种混合场景。
因此,如何更灵活、更实际地处理实际情况成为了一个关键问题,现有作品存在以下局限性。
①缺乏多子空间特征提取机制,现有恢复网络在同时表征混合多种天气退化方面受到限制。
②单一降解去除中使用的模型在恢复剩余背景成分不足的混合不利天气条件时受到限制。
③以往的统一学习策略是针对非重叠退化而设计的,受限于推广到各种混合场景。
为了解决上述问题,RAHC通过AdverseGAN学习隐式退化提供成对的训练数据,使用三种量身定制的设计结构,以一次性恢复任意混合恶劣天气条件(图1(d)),具有下列特点:
①多天气退化表示的多头混合块(MHBB):覆盖卷积和注意混合算子的多头机制可以为混合多天气学习提供多个“表示子空间”以及互补特征。
②用于图像成分保留有限的混合条件下的重建向量辅助恢复(RVA):在大规模自然图像上预训练的Codebook中封装的离散表示(重建向量),可以提供额外的视觉内容线索,以辅助重建真实而清晰的输出。
③高效任意混合条件恢复的输出空间判别(OSD):从输出空间设计了一个简单的多标签分类判别器,强制恢复网络学习不依赖于退化的修复能力,无需任何复杂的策略或模块,可以灵活应对多种混合场景。
除了网络之外,构建了一个混合恶劣天气条件数据集HAC,其中包括五种常见天气类型(即雾霾、雨带、雪、夜和雨滴)的组合。
论文
论文名: Restoring Images Captured in Arbitrary Hybrid Adverse Weather
Conditions in One Go
论文速递: 点我转跳哦
代码通道: GitHub(RAHC)
网络框架
RAHC: 恢复网络由一个编码器、一个解码器和一个特征映射子网组成。映射网络首先将编码特征映射到潜在干净空间,然后通过最近邻匹配在预先建立的码本中定位重构向量,为解码器提供特权视觉线索。为了实现退化独立学习,利用鉴别器从恢复图像中区分天气退化的类型,而恢复网络则努力欺骗鉴别器。多头混合块(MHBB)、卷积注意模块(CAM)和双路径前馈网络(DP-FFN)的示意图用彩色虚线框表示。
核心思想: 通过AdverseGAN高效地生成混合不利条件,然后通过多头聚合结构和判别学习方案训练退化无关的恢复网络。同时,嵌入在代码本中的视觉成分被用来为高度困难的混合条件的恢复提供辅助的视觉线索。
形式上,给定一张干净的图像C∈RH×W×3,AdverseGAN首先生成相应的降级图像D∈RH×W×3,得到降级-干净对。将生成的退化图像输入到恢复网络中,得到一致的与恢复无关的恢复图像R∈RH×W×3。同时,特征映射网络学习从编码特征到相应的干净嵌入的投影,在Codebook中定位重建向量,为恢复提供额外的辅助视觉原子。最后,将恢复的结果输入到鉴别器中,以区分恢复前恢复的图像遭受了哪种类型的退化。
降级图像D通过3×3卷积得到Fin∈RH×W×C。然后,Fin通过基于MHBB构建的四个编码器层进行传播,得到深度特征Fmi∈RH/8×W/8×8C。然后,通过特征映射网络传输Fmi,定位最可能从Codebook中重建被隐藏的干净图像的重构向量Frv∈RH/8×W/8×Nz,其中Nz表示重构向量的维数。最终,Fmi和Frv被连接在一起,并输入到对称解码器中,通过3 ×3卷积恢复最终结果R∈RH×W×3。
网络详解
多头混合模块
现有的特征提取模块缺乏多退化表示机制来捕获混合多天气的特征,导致特征建模不足。此外,卷积具有强大的局部计算能力,而Transformer在捕获远程依赖关系方面表现出色,两者的互补特性使混合结构成为特征提取的更好选择。为此,提出了一个多头混合块(MHBB)来提供多个“表示子空间”以及多天气学习的互补特征。图3显示了MHBB的两个核心单元(CAM和DP-FFN)。
注意不是将Transformer和Convolution直接并联或串联起来,而是将Convolution和自关注作为等效的微级算子。覆盖多个CAM的多头机制为统一学习提供了多退化表示子空间。具体来说,输入特征X首先被划分为“头”。
多头设计允许不同的分支学习不同的表征,从而自适应地提取不同的退化线索,以保证多样性恢复的能力。然后通过卷积注意模块(CAM)对每个头部进行转换。CAM包含两个分支:注意路径和卷积路径,这两个分支被拆分和合并,并加入1×1卷积进行并行处理。
为了在保持全局计算特性的同时减少香草自注意的高计算量,在注意路径中采用了pixel-shuffle算子,在减少通道数量的同时避免信息丢失。另一方面,卷积路径由两个卷积层和一个GELU激活函数组成。
其中k表示第k个头,PU和PS表示像素洗牌和像素洗牌操作。随后,将不同正面的结果与堆叠的1×1卷积积分在一起。
局部相关信息对于图像恢复至关重要,而原始的前馈网络(FFN)对这一需求不敏感且无能,因为它独立处理每个令牌而不考虑它们之间的关系。考虑到卷积运算可以通过共享相邻像素的权重来获取局部上下文信息。为了弥补上述限制,提出了一种双路径FFN (DP-FFN),通过引入与全连接层并行的卷积分支来提取局部上下文信息。DP-FFN过程公式为:
总体而言,MHBB过程可表示为:
重建向量辅助恢复
重建向量辅助恢复。现有的图像恢复算法旨在从剩余的模糊背景内容中恢复退化的图像。在这种情况下,可用的特征是有限的,特别是混合条件下,在信息不足的情况下恢复高质量的图像是极具挑战性的。受两阶段图像生成模型的启发,该模型在第一阶段构建具有丰富上下文的Codebook,然后在第二阶段生成具有编码离散向量的图像。
利用嵌入在Codebook中的上下文丰富的向量来帮助网络修复混合退化图像,从而使修复的知识领域从单个图像扩展到整个向量。
利用嵌入在Codebook中的先验上下文丰富的向量来帮助网络修复退化的图像,使得恢复的知识领域从单个图像扩展到整个向量库。对于输入特征映射Fmi,映射网络将退化图像的特征映射到Codebook中隐藏的干净图像对应的量化编码,即重构向量。利用重构向量中包含的信息丰富的图像分量,恢复网络可以更好地重构出高质量的图像。
更准确地说,利用在OpenImages上预训练的带有8192个量化编码的VQGAN作为重构向量库。VQGAN编码器首先产生干净图像的量化编码Fcrv∈RH/8×W/8×Nz,对于恢复网络编码器编码的退化图像特征Fmi,映射网络学习预测与Fcrv一致的可能嵌入Fdrv。注意层和卷积层被级联以构建映射网络,该网络可以通过下面的余弦相似度损失进行优化。
然后,通过利用每个空间编码Fdrv(i, j)∈RNz从Fdrv∈R H/8×W/8×Nz到其在Codebook中最近的重构向量rvk的后续最近邻匹配NNM(·)来获得Frv。
输出空间判别
现有的一体化修复方法依靠蒸馏、降解引导和查询来获取不同降解的知识。尽管这些方法在非重叠降解方面取得了优异的性能,但它们在混合多重降解的联合表征建模方面存在局限性。无论遭受什么退化类型的图像,恢复的结果应该是一个退化无关的高质量的干净图像。
因此,创新地将多个混合退化的统一学习作为一个领域自适应问题,并通过判别对抗学习方案培育出与退化无关的自适应恢复网络。与Li等人努力保留退化线索来训练多个特征提取器不同,致力于对恢复网络进行反向约束,以产生一致的与退化无关的理想图像。
基于对抗博弈的概念,鉴别器的目标是从恢复的图像中识别出它所遭受的退化。相反,恢复网络努力产生一致的未跟踪图像,以混淆鉴别器,如图5所示。
鉴别器训练。 给定恢复输出R = Network(D),将R转发给判别器Dis,从恢复图像中区分天气退化的类型。鉴别器的训练可以看作是一个多标签分类任务,交叉熵损失目标可以定义为:
恢复网络训练:使用像素级L1损失,使恢复结果R近似于地面真实干净图像C:
其次,为了恢复与退化无关的结果,即判别器无法识别退化类型的结果,使用如下判别损失:
最终目标是最小化L1损失,同时允许结果近似一致的不依赖于降解的干净分布。同时,还采用感知损失来减弱伪数据噪声对训练的干扰。
因此,最终的训练目标可以表示为:
其中λdis设为0.1以平衡Ldis的相对权重。
所提出的范式可以处理31种混合天气条件,仅依赖于一个五类分类判别器,而现有的方法必须分别处理31种情况,导致复杂和冗余的训练过程。
混合恶劣天气条件数据集(HAC)
用于训练集生成的逆向GAN。伪数据生成已被证明是可行的,并取得了显著的性能。受上述研究的启发,为了有效地生成真实可控的成对数据,用于任意混合不利条件恢复的端到端训练,提出使用GAN生成伪不利条件,而不是人工处理。关键是首先训练一个精心设计的AdverseGAN,它可以利用现有数据生成五种基本天气类型,然后通过递归调用生成混合叠加条件。因此,最终可以自动生成31个不利条件,无需人工操作。所提出的AdverseGAN的如下所示。
生成器: 基于对偶空间结构,内容空间C和风格空间S构建的。生成器首先将输入的干净图像编码到潜在空间,然后注入从正态分布中随机抽取的风格向量zs和内容向量zc生成降级图像。从类型标签t映射的类型向量zt被集成在一起以控制条件类型,如cGAN。风格向量的注入遵循StyleGAN2,内容向量的注入遵循SNI。相反,潜空间的功能与SNI不同,可以总结为以下三个方面:
(1)将内容码与图像码作为解码器的输入特征图连接在一起,实现干净背景与退化的自然解耦;
(2)从风格空间中分离出来的独立的内容空间可以产生更丰富、更多样的条件;
(3)双重空间可以更好地解开内容与风格的纠缠,产生更现实可靠的不利条件。
引入对偶空间后,干净图像C到相应退化图像Dt的生成过程可以用条件分布p(Dt|C, t, zc, zs)来描述。生成器G表示一个隐式分布pG(D|C, t, zc, zs)来近似真实分布p(Dt |C, t, zc, zs)。可以很容易地得到伪退化图像D:
式中p(i)表示潜在变量i的分布。
鉴别器: 虽然单个退化类型的配对数据集很容易获得,但它们大多数是人工调制的合成数据,无法很好地模拟真实的退化情景。此外,生成对抗网络不能保证生成图像的背景除退化外保持不变。为了弥补上述限制,引入了双重鉴别器来产生更现实和内容保留的不利条件。
现实判别器(RD) 试图区分真实的恶劣天气条件和生成的虚假天气条件。而配对鉴别器 (pair -discriminator, PD)则试图区分真实配对数据和伪配对数据,即约束生成图像的背景一致性。为了允许生成多个不利条件,鉴别器生成了源和条件类型的概率分布,D:µ→Dsrc(µ),Dcls(µ)。
对于RD,首先使用对抗损失来约束生成的图像D与真实图像E无法区分,损失可以表示为:
除了对抗性损失外,还施加类型分类损失以保证生成的天气类型符合预期。将损失分解为两项:用于优化RD的真实图像的类型分类损失和用于优化生成器的生成图像的类型分类损失,前者定义为:
其中
t
^
\widehat{t}
t
表示预测的天气类型。另一方面,后者可以定义为:
同样,PD也包含两个损失目标,一个是约束生成图像与干净对应图像配对的对抗损失,另一个是保证配对类型匹配期望的类型分类损失。优化PD的对抗损失可表示为:
相应的,优化PD和G所使用的类型分类损失分别表示为:
最后将优化G、RD和PD的目标函数分别写为
其中,α、β和
λ
λ
λcls是平衡每项权重的超参数,分别设为1、2和3;
为了更好地说明训练数据生成管道,在Algo. 1中提供了算法过程。此外,在图7中展示了AdverseGAN惊人的生成能力。
实验
- 算力:两个NVIDIA RTX 3090Ti gpu
- AdverseGAN
-
- 优化器:Adam
-
- batch size:16,
-
- 学习率:初始化为0.00001,然后在200 epoch后降低到0.000005。
- RAHC
-
- 优化器:Adam
-
- 迭代次数: 6×105,
-
- batch size:4,
-
- 学习率:为2 × 10−4,余弦退火策略逐渐降低到1 × 10−6。
实验-HAC
RAHC提供了无与伦比的性能增益,并且在特定条件设置和一体化设置中优于所有竞争机型,特别是在极端不利的情况下,如“四倍”和“五倍”。值得注意的是,当存在五组退化类型时,RAHC在PSNR上比性能最好的统一方法TKL高出3.32dB。
此外,在一体化设置中训练的RAHC甚至超过了在每个单一条件下单独训练的结果。这种现象可以归因于所提出的判别学习方案允许网络学习更广义和不依赖于退化的修复能力,并且重建向量辅助方案可以从更充分的数据中受益。在图6中展示了视觉比较。如上所述,RAHC恢复干净和清晰的结果,同时实现和谐的全局色调,而不会引入其他方法所遭受的可见工件或颜色偏移,特别是对于复杂的混合场景。
定量结果和定性结果如下:
实验-传统
定量结果和定性结果如下:
在表格中,提供了四种实验的结果:
(1)特定任务设置,即只使用特定任务数据进行训练;
(2) all-in-one设置,即使用所有数据集的混合数据进行训练;
(3)使用AdverseGAN生成的纯数据进行训练;
(4)应用AdverseGAN作为数据增强器的性能增益。
可以看到,RAHC在特定任务设置和一体化设置中在所有五个任务上都取得了最好的分数。以表7为例,RAHC优于以前的SOTA TKL, PSNR差值高达0.3dB。此外,在一体化设置下,RAHC仅略低于特定于任务的结果,显示出一致的恢复性能。
为了验证AdverseGAN的可靠性和分布仿真能力,只使用AdverseGAN生成的数据训练RAHC,而不使用原始退化图像。正如所看到的,从生成的数据中训练的RAHC获得了有竞争力的结果,尽管比标准结果差一些,但与繁琐和劳动密集型的数据合成过程相比,这是微不足道的。在HAC数据集上的定性和定量实验结果都证明了AdverseGAN的合理性。结果还表明AdverseGAN是可信的,并且在模拟源分布方面表现出色,因此可以作为增强器来提高现有方法的性能增益。
实验-真实
对现实世界的恶劣天气条件进行了额外的比较,以进一步验证HAC的现实可靠性和RAHC的鲁棒性。使用NIQE和SSEQ对无参考文献恢复性能进行定量评价。定量结果见表9。SSEQ和NIQE得分越小,表明感知质量越好,内容越清晰。可以观察到,RAHC在现实世界样本上提供了最好的平均分数,远远超过了最先进的修复方法。
图10展示了在实际条件下的视觉比较。可以看出,在HAC数据集上训练的RAHC和TKL可以很好地处理现实世界的混合恶劣天气条件,充分表明了提出的数据集的真实性和有效性。同时,与TKL和TransWeather相比,RAHC产生了更干净、更令人满意的结果,这有力地证明了所提出的RAHC的优越性。此外,该实验还揭示了现实场景中往往存在多个叠加退化而不是简单的一次破坏的事实,可以灵活地一次恢复任意混合条件。
消融实验
重建向量辅助方案和输出空间判别学习方案 :表10报告了两种基本方案的消融情况,可以看到,无OSD的RAHC的PSNR下降了0.51dB,当丢弃RVA时,PSNR急剧下降了0.96dB。
输出空间判别学习方案保证了网络学习到退化不可知的通用修复能力,而重建向量辅助方案则为网络应对混合复杂不利场景提供了坚实的支持。实验结果有力地证明了这两种方案的必要性,这两种方案在实现任意杂交恶劣天气条件恢复方面发挥了重要作用。
MHBB的有效性 :为了验证MHBB中每个关键设计元素的有效性,对以下变体进行了实验:(1)无多头的MHBB;(2) CAM w/o卷积路径;(3)无注意路径CAM;(4) w/o卷积路径的DPFFN;(5)最终模型。
有必要指出对于每个变体,调整网络的宽度以保持参数的总数。如表11所示,每个组件都起着关键作用,删除其中任何一个组件都会导致显著的性能下降。特别是,当去除多头机制后,PSNR降低了0.33dB,这表明多表示子空间对退化不可知学习有深远的影响。
此外提供了有或没有卷积路径的DP-FFN的特征图对比,如图11所示。结果表明,原始FFN对局部细节上下文不敏感,提取的特征忽略了图像中的建筑纹理,而通过并行化卷积分支提取丰富的建筑纹理结构。结果清楚地表明,提出的DP-FFN可以通过并行化卷积路径更好地提取图像恢复中感兴趣的详细上下文。
重构向量的影响: 探讨重建向量的效果,可视化结果如图12所示。如上所述,没有RV的RAHC倾向于产生模糊的上下文,而RAHC可以恢复更清晰的结构和纹理细节。
当然,直接使用VQGAN解码器从重建向量中恢复干净的图像可能是另一种选择,但在本文中,只利用重建向量作为辅助特征,让网络自己学习如何利用它们。如图12所示。可以看到,直接恢复的图像(RV的可视化)补充了退化区域可能的纹理,但保真度较低,而的隐式建模允许恢复模型根据自己的“经验”使用嵌入重建向量中的视觉原子,从而恢复更真实可靠的图像,细节丰富。
此外,提供了所提出的映射网络和直接分类在重建向量定位中的精度比较。如图13所示。始终具有比分类更高的精度,对高精度预测不敏感,紧密拟合的重建向量可以为恢复过程提供丰富的视觉线索,如图12所示。
特征级别判别器vs.输出空间判别器 :与输出空间判别类似,进一步研究了特征级判别,即将编码器提取的特征输入鉴别器以区分退化类型,而恢复网络则试图混淆鉴别器以提取退化不可知的特征。定量实验结果如表13所示,可以发现,特征级和输出空间都有助于学习退化不可知的恢复能力,而输出空间相对于对应的输出空间更受青睐。推测,包含高级语义的中间特征更容易混淆鉴别器,从而导致鉴别器的绑定更弱。
高层应用结果: 为了证明所提出的恢复算法在现实世界视觉系统中的性能,使用预训练的DeepLabv3+[91]评估了恢复过程对流行的不利条件分割数据集ACDC[90]的影响。从表19可以看出,统一框架TKL[20]、TransWeather[23]和RAHC比单一天气去除算法Restormer[16]取得了更好的效果。这一现象再次揭示了一个事实,即现实世界的恶劣天气条件是复杂的、不可预测的,而且往往是多种天气因素综合作用的结果。单一天气去除算法Restormer[16]只能一次性去除特定天气,而统一框架可以自适应地恢复复杂场景,产生更吸引人的结果。此外,由于重构向量的应用和输出空间约束,提出的RAHC比TKL和TransWeather[23]获得了明显更高的mIoU。这一结果也从侧面说明了提出的任意混合恶劣天气条件恢复问题的必要性和有效性。还在图17中提供了可视化的分割结果。正如所看到的,RAHC可以更好地理解不利条件下的图像,更准确地识别不同区域的语义。
所有的降级在一个去恢复更令人愉快的高质量的图像。RAHC不仅可以处理随机发生的混合恶劣天气条件,还可以稳健地处理单一天气情景,因此RAHC可以更好地部署来处理复杂和多样化的现实世界条件(在不失去恢复单一天气退化的能力的同时,可以处理现有方法忽略的混合天气情景)。相信本研究的探索对现实世界的天气条件恢复应该是有意义和有价值的。
总结
总结: AdverseGAN,人工成本、时间成本和资本成本被极大地压缩了。RAHC可以处理五种常见天气组合的任意混合条件,而其他罕见的不利天气如玻璃霜冻、沙尘等仍有待解决。未来,将专注于训练能够处理单一退化数据的复杂混合条件的模型,这是极具挑战性但又有意义的,特别是当考虑到更多天气类型时,其混合条件的数量呈指数级增长。此外,我还将在未来的研究中探索更多真实世界夜间恶劣天气条件的模拟策略,希望能训练出更鲁棒和实用的图像恢复模型。
致谢
欲尽善本文,因所视短浅,怎奈所书皆是瞽言蒭议。行文至此,诚向予助与余者致以谢意。
参考
[1]. Ye-Cong W, Ming-Wen S, Yuan-Shuo C, Yue-Xian L, Zhi-Yuan B, De-Yu M, et al. Restoring Images Captured in Arbitrary Hybrid Adverse Weather Conditions in One Go[J], CoRR, 2023, abs/2305.09996