摘要:单个图像去雾处理是计算机视觉中的一个关键问题,然而,最近提出的基于学习的去雾方法由于参数估计不准确,使去雾图像的质量不理想。这些模型的规模也很大,可以用于移动设备有限的资源。最后,大多数模型都是为图像去雾而定制的,实现了弱化的迁移。因此,我们提出了一种紧凑的多尺度注意特征融合网络MSAFF-Net来实现端到端单图像去雾。在该模型中,我们设计了一个简单而强大的特征提取模块,从有雾的图像中提取复杂的特征。我们使用通道注意模块和多尺度空间注意模块来考虑具有雾霾相关特征的区域。据我们所知,本研究是第一次直接应用注意机制,而不是将其嵌入到某些模块中进行单一图像去雾,我们比较了MSAFF-Net与NTIRE18、驻留器和米德尔伯里立体声数据集上的其他方法,我们证明,MSAFF-Net取得了与其他模型相当或更好的性能。我们还将MSAFFNet扩展到单幅图像去雨,并通过各种实验证明了其有效性。结果表明,MSAFFNet可以利用具有最有用的雾霾或雨相关特征和空间位置的通道直接恢复清晰的图像。
图像去雾是低层次视觉中的一个基本和基本问题,因为雾霾输入导致的图像质量下降可能会对后续的高级视觉任务有害,如目标检测和识别。因此,近年来,人们做出了许多努力,从大气中漂浮粒子的模糊输入中恢复干净的图像。现有的单图像去雾方法可以分为基于参数估计和非参数估计的去雾方法。大多数基于参数估计的方法[1]-[10]使用大气散射模型[11]-[15]。这些方法必须获得对透射光和大气光的准确估计。这一领域的研究是一个具有里程碑意义的研究,他提出了一个简单的暗通道先验(DCP)用于去除单一图像的雾霾。该方法能有效地估计传输图,但与天空图像或白色场景一起失败,导致颜色失真。
虽然基于先验的方法在许多场景中简单有效,但用这些方法很难估计准确的传输图,导致不现实的图像失光。基于卷积神经网络(CNNs)在计算机视觉中的成功,有几种方法[4-8]直接从训练数据中预测传输图和大气光,以克服基于先验的方法的不准确性。虽然基于cnn的方法的改进很显著,但去雾图像的质量仍然取决于预测的透射图和大气光的准确性。Li等人[5]没有估计中间透射图和大气光,而是提出了一种端到端CNNtCNN模型,通过重新构造大气散射模型,降低了估计变量出现一定误差时图像失真的概率。
为了提高预测参数的准确性,一些研究人员研究了生成对抗网络(GANs)[16]-[19],在图像到图像的转换中实现了可接受的性能。基于gan的图像去雾方法已经取得了很好的除雾效果,但与颜色失真相关的问题尚未得到解决。为了解决这个问题,研究人员已经将RGB颜色空间中的图像转换为其他颜色空间,如HSV [2][20]和YCrCb [9]。虽然这些方法可以产生无雾图像,但去雾结果很大程度上依赖于估计的传输图和全球大气光的准确性。
为了绕过对透射图和大气光的估计,许多网络[21-24]被设计为直接从模糊图像中生成无雾图像。如果不需要参数估计,这些方法可以产生比基于参数估计方法更好的分离质量。然而,它们通常需要大量的训练数据来直接恢复无雾霾的图像。无论无雾霾图像是否被直接恢复,它们都呈现出一个共同的问题,即忽略了通道之间的雾霾相关信息的差异。
在本研究中,我们开发了一个深度CNN模型,以实现快速和准确的单幅图像去雾。本文提出了一种基于多尺度注意特征融合网络(MSAFF-Net)的简单、有效的去雾方法。该模型由特征提取模块、信道注意模块和并行的多尺度空间注意模块组成。特征提取模块侧重于低层次特征和高级特征的提取,而通道注意模块和空间注意模块都考虑了与雾霾特征高度相关的区域。本研究的贡献可以总结如下:
1)我们提出了一种用于单幅图像去雾和更多任务的多尺度注意特征融合网络,称为MSAFF-Net,它可以在RGB颜色空间中直接恢复一个有雾图像。与其他方法相比,模型大小为2 MB,更轻量级,计算效率更高。
2)据我们所知,本研究是首次直接使用注意机制,而不是将其嵌入到某些模块中进行单一图像去雾。
3)该方法可以去除单幅图像中的雾霾,并具有良好的除雨性能。
本文总体框架如下所示:
在本节中,我们将详细描述所提出的MSAFF-Net。如图1所示,MSAFF-Net由三个主要的功能模块组成:特征提取模块、通道注意模块和多尺度空间注意模块,图1所示,首先将雾霾图像输入卷积层,然后通过简单的特征提取模块从浅到深提取,然后将提取的特征依次输入通道注意模块和多尺度空间注意模块。此外,所提出的特征融合策略允许MSAFF-Net保留浅层特征,并利用多尺度注意特征的互补性。
A 特征提取模块
在MSAFF-Net中,通过一个由多个特征提取单元组成的特征提取模块,提取出丰富的雾霾相关特征。我们使用残差学习块[35]作为特征提取单元的骨架。造成这其中有两个原因。首先,初始卷积层作为编码器,提取雾霾图像的低级特征。残差块可以保留这些低级特征,并从雾霾图像中提取高级特征。低级特性和高级特性的组合有利于恢复过程。其次,残差块可以提高网络的学习能力,也可以学习到更复杂的特征。此外,在剩余学习中还使用了实例归一化(IN)[36]。图像去雾与图像识别和分类的不同之处在于,因为有雾图像中个体之间的差异。与其他归一化技术,如批处理归一化(BN)[37]和层归一化(LN)[38]相比,IN可以捕获这些差异。虽然在[36]中使用了IN,但他们指出AdaIN是不可训练的,并且不能自动学习仿射参数,这可能会导致归一化结果的偏差。然而,我们使用的IN可以学习仿射参数,这使归一化结果更加准确。此外,受网络内部(NIN)[39]的启发,在特征提取单元中添加了两个卷积层。在特征提取单元中,将卷积学习到的特征映射到不同的信道上,卷积滤波器的数量等于卷积生成的特征信道的数量。因此,所提出的特征提取单元可以通过扩展和压缩通道的数量来学习交互式的交叉通道特征。虽然特征提取单元的结构简单,但它具有提取复杂的抽象特征的能力。标准的残差结构[35]主要缓解了梯度爆炸,并且只能通过增加残差块来提取复杂的特征。
B.通道注意模块
特征提取模块从原始模糊图像中充分提取出各种复杂特征,而特征通道间的模糊相关特征并不相等。通道注意模块旨在寻找特征图中有价值的危险相关通道。为了有效地分配不同信道的注意权值,采用了全局平均池和全局最大池。在每次池化之后,我们通过1×1的卷积得到两个中间映射,然后通过元素加法操作将它们相加,生成一个映射。然后,我们将这个映射提供给sigmoid函数来获得权重。最后,通过将元素的权值相乘得到输出特征映射与输入图像中对应的像素值放在一起计算。这些过程可以计算如下:
其中Fc为输入特征图,GA为全局平均池化函数,GM为全局最大池化函数,𝜎为s型函数,⨁表示元素加法,⨂表示元素乘法。
C.多尺度空间注意模块
与通道注意模块不同的是,空间注意模块用于识别厚雾霾部、高频部分等关键部分,由于雾霾在不同图像区域的分布不均匀,因此给这些部分分配更合理的权重。然而,空间注意单元的感受域是固定的,不能适应雾霾的不均匀分布,导致对某一区域的过度强调,从而导致雾霾去除效果的恶化。为了解决这个问题,我们提出了一个包含多个并行空间注意单元的多尺度空间注意模块。在多尺度空间注意单元中存在不同大小的感受野,更能适应雾霾的不均匀分布。并行结构使多尺度空间注意模块能够同时处理数据,从而减少了脱雾的时间成本。为了获得空间注意,我们直接将通道注意特征图输入多尺度空间注意模块。对空间注意单元的计算可以表示为:
其中FCA为信道注意图,avg为平均池化函数,𝜎为s型函数,⨂为元素级乘法。通道注意模块和多尺度空间注意模块都直接使用了注意机制本身。注意机制并没有嵌入到任何模型中,因此也不会使模型的网络复杂化。类似地,FFANet [27]也使用了一种注意机制来去除雾霾。然而,FFA-Net将注意机制嵌入到一个双残余结构中,这增加了去雾网络的复杂性,增加了计算负担。表Ⅳ显示,FFA-Net有很多参数,而所提出的MSAFF-Net是轻量级和紧凑的。我们将本研究中的注意模型与FFA-Net中的注意模型进行了比较。对于信道注意机制,FFA-Net只使用平均池化而不是最大池化,这使得信道注意模型不足以捕捉对象的细节和纹理特征。图2为FFA-Net和MSAFF-Net的信道注意图的比较结果。在图2中,通道的注意权值被描述为一个伪彩色图,色度条对应于权值分布区间。如图2(b)和(c)的色度条所示,所提出的通道注意模型可以获得比FFA-Net更宽的权重范围,这表明所提出的通道注意可以使用相同的输入模糊图像为不同的细节(如雾霾)和物体纹理分配更精细的权重。
在空间注意机制中,FFA-Net只使用单尺度卷积来计算模糊图像中每个位置的权重,这也使得网络无法完全掌握各种类型的特征。图3为FFA-Net中的像素注意图与MSAFF-Net中的多尺度空间注意图的比较结果。在图3中,目标区域的亮度高于模糊区域的亮度,因为网络给目标区域分配了更大的权重,以恢复尽可能多的细节。如图2 (a)所示,墙体和地面大部分区域为白色,靠近雾霾,因此,这些区域和朦胧区域的重量较小。相比之下,椅子和其他物品有丰富的细节和纹理;因此,他们将得到很大的重量。根据图3所示的比较结果,所提出的多尺度空间注意模块可以分配更合理的权重。
D. 损失函数
均方误差(MSE)或L2损失函数被广泛用于图像去雾任务,而最终的去雾图像使用MSE损失获得的往往是模糊的,这导致与视觉质量不匹配。与MSE损失相比,L1损失函数获得了更好的性能,因为它对异常值的敏感性低于MSE损失。为了减少去雾过程造成的误差,提高去雾图像的视觉质量,我们还引入了结构相似度指数度量(SSIM)损失和感知损失。MSE损失。MSE损失测量失光输出图像和相应的清晰图像之间的像素对像素的差。MSE的损失可以描述如下:
式中,i为像素位置,N为脱灰图像中的像素总数,𝐼𝑑𝑒𝑖为脱灰图像,𝐼𝑔𝑡𝑖为清晰图像。
L1损失。与MSE损失类似,L1损失测量了在像素空间中失光图像和清晰图像之间的绝对保真度。L1损失可以写成:
SSIM损失。提出了SSIM方法,通过提取结构信息来评估两幅图像之间的结构相似性。SSIM的定义如下:
式中,𝜇𝐼𝑑𝑒和𝜇𝐼𝑔𝑡分别为模糊图像和清晰图像的平均值;𝜎𝐼2𝑑𝑒和𝜎𝐼2𝑔𝑡分别为模糊图像和清晰图像的方差;𝜎𝐼𝑑𝑒𝐼𝑔𝑡为模糊图像和清晰图像的协方差;C1和C2为常数。SSIM的损失可以表示为:
知觉损失。知觉损失是基于在ImageNet [40]上预先训练的VGG特征,可以从特征的角度来评估脱光图像的失真。感知损失可以描述如下:
其中,𝜑(.)代表VGG网中的特征地图。最后,我们将这些损失函数整合到一个混合损失函数中来训练MSAFF-Net,所提出的损失函数可以表示如下: