Image Restoration via Frequency Selection

通过频率选择进行图像恢复

在这里插入图片描述

论文链接:https://ieeexplore.ieee.org/document/10310164

项目链接:https://github.com/c-yn/FSNet

Abstract

图像恢复旨在从损坏的图像中重建潜在的清晰图像。除了在空间域中处理这一长期任务外,一些方法还通过考虑清晰/退化图像对光谱之间的巨大差异在频域中寻求解决方案。然而,这些算法通常利用小波变换等变换工具将特征分解为几个频率部分,这不够灵活,无法选择最具信息量的频率分量进行恢复。本文中,我们开发了一个多分支和内容感知模块,将特征动态地和局部地分解为单独的频率子带,然后通过逐信道的注意力权重来强调有用的子带。此外,为了处理大规模退化模糊,我们提出了一种极其简单的解耦和调制模块,通过全局和基于窗口的平均池来扩大感受野。此外,我们将多阶段网络的范式合并为一个U形网络,以追求多尺度感受野并提高效率。最后,将上述设计集成到卷积骨干网中,所提出的频率选择网络(FSNet)在20个不同的基准数据集上对6个代表性图像恢复任务的最新算法表现良好,包括单图像散焦去模糊、图像去模糊、图像运动去模糊、图象去雪、图像去雨和图像去噪。

I. INTRODUCTION

图像恢复旨在通过去除劣化(如噪声、模糊和雪花)来恢复高质量的图像。鉴于其在监控、自动驾驶技术和遥感中的重要作用,图像恢复引起了工业界和学术界的广泛关注。然而,由于其不适定特性,许多传统方法基于各种假设[1]或手工制作的特征[2]来解决这个问题,这些假设在现实世界场景中无法产生可靠的结果[3]。

近年来,深度神经网络在图像恢复方面得到了快速发展,与传统方法相比取得了良好的性能。通过发明或借鉴其他领域的高级模块,如膨胀卷积[4]、[5]、U-Net[6]、残差学习[7]、多级pipeline[8]和注意力机制[9]、[10]、[11]、[12],已经开发了一系列基于卷积神经网络(CNN)的方法,用于各种图像恢复任务。然而,对于卷积单元,这些方法的感受野有限,因此无法捕捉到长距离依赖。这一要求对于恢复任务至关重要,因为单个像素需要从其周围区域恢复信息。最近,许多研究人员为图像恢复任务定制了Transformer[13],如图像运动去模糊[14]和图像去模糊[15]、[16]。

然而,上述方法主要在空间域中执行恢复,这没有充分利用清晰/劣化图像对之间的频率差异。为此,一些作品利用小波变换或傅里叶变换等变换工具将特征分解为不同的频率分量,然后单独处理单独的部分以重建相应的特征[5]、[17]、[18]、[19]。然而,小波变换以固定的方式将特征图解耦为不同的子带,因此它无法区分信息量最大或无用的频率分量来增强或抑制。此外,这些方法需要相应的傅里叶逆变换/小波变换,导致额外的计算开销。

为了克服上述缺点并选择信息量最大的频率分量进行重建,我们提出了一种用于图像恢复任务的新型解耦和重新校准模块,称为多分支动态选择性频率模块(MDSF)。具体来说,我们利用多分支可学习滤波器动态和局部生成高频和低频图。然后,我们利用通道式注意力机制来强调或衰减由此产生的频率分量。我们的模块有两个关键优势。首先,根据输入和任务,解耦步骤动态生成滤波器来分解特征图。其次,我们的模块没有引入额外的逆变换。

由于退化模糊的大小不同,感受野是图像恢复任务的另一个关键因素[26],[27]。为了补充上述在本地处理特征的动态模块MDSF,我们进一步提出了一种简单而有效的模块,称为多分支紧凑型选择性频率模块(MCSF),以增强基于多个相对全局感受野的有用频率信号。具体来说,我们利用全局和基于窗口的平均池化技术来获得不同的频率图,然后使用可学习的参数来调制得到的图,而无需诉诸任何卷积层。与MDSF相比,除了扩大的感受野外,MCSF还足够轻,可以嵌入骨干的多个位置。

此外,受图像恢复多级网络的启发[28],[29],我们在模型的第一个规模中嵌入了一个小型U-Net,以提高效率,同时获得相当或更好的性能。本研究的主要贡献总结如下:

  • 我们提出了一种多分支动态选择性频率模块(MDSF),能够通过理论证明的滤波器将特征映射动态解耦为不同的频率分量,并选择信息量最大的分量进行恢复。
  • 我们开发了一种多分支紧凑型选择性频率模块(MCSF),该模块使用多尺度平均池操作进行频率解耦和重新校准,以寻求大规模退化模糊的大感受野。
  • 我们将一个小型U-Net合并到大型U-Net中,为最高分辨率的特征提供多尺度表示学习(MSL),并提高效率。
  • 将上述设计结合到卷积骨干网中,所提出的频率选择网络(FSNet)在20个数据集上对6个图像恢复任务的最先进算法表现良好,包括图像散焦/运动去模糊、去雪、去雨和去噪。

本研究是会议论文[24]的延伸。与初步版本相比,主要的改进是:

i)我们将一个小的U-Net引入到一个大的U形网络中,为最高分辨率的特征提供多尺度表示学习。这种修改提高了效率,同时实现了相当或更好的性能(表I)。例如,我们的模型在GoPro[25]数据集上获得了0.02 dB的PSNR改善,与SFNet[24]相比,FLOP减少了11%,运行速度更快。此外,FSNet在SOTSOutdoor[20]上实现了40.40 dB的PSNR,比SFNet[24]高0.35 dB。

在这里插入图片描述

ii)我们通过提供两个版本的模型,即FSNet-S和FSNet,讨论了计算复杂度对图像去模糊/去噪的影响。如图1(a)所示,小型版本FSNet-S在SOTS Indoor上以较低的复杂性实现了最先进的结果[20]。FSNet进一步将性能提高到42.45 dB PSNR,比SFNet高1.21 dB[24]。

iii)我们的模型在更多的数据集上进行了评估。具体来说,我们提供了关于Haze4K[30]、NHR[31]和NH-HAZE[32]用于图像去噪和RealBlur[33]用于图像运动去模糊的额外实验结果。此外,该模型扩展到图像去噪任务,并显示出强大的去噪能力。

在这里插入图片描述

II. RELATED WORK

图像复原:低端相机或恶劣天气下拍摄的图像会降低能见度,影响下游任务的鲁棒性。在这方面,图像复原有利于从那些不期望的退化中恢复出清晰的图像,例如,雾霾,雪花,噪声和雨线。由于其不适定性,许多传统的方法都是基于各种假设和手工设计的特征来获得合理的解[34],[35],[36]。然而,这些方法对于更复杂的真实世界场景来说是不够鲁棒的[3]。

近年来,随着卷积神经网络(convolutional neural networks,CNNs)的快速发展,许多开创性的深度框架被提出,并在图像复原任务中取得了重大进展,如图像运动去模糊[28]、[37]、[38]、[39]、离焦去模糊[23]、[27]、[40]、去雪[21]、[41]、去雾[9]、[42]、[43]、[44]、去雨[1]、[45]等,取得了比传统方法更优异的性能。Ren等人[43]提出了第一个基于学习的图像去雾方法,通过学习有雾输入和它们对应的传输映射之间的映射。Nah等人[25]提出了一种多尺度CNN,以端到端的方式恢复由各种来源引起的模糊的清晰图像。此后,一系列先进的基于CNN的功能单元被提出或从其他领域借鉴过来。在这些设计中,编码器-解码器pipeline[6]是一种流行的解决方案,可以有效地学习图像恢复的分层表示。同样,基于跳跃连接的方法已经被证明对残差信号的学习是有效的[46]。膨胀卷积被引入以提供大的感受野[5]。此外,各种注意力机制也被纳入以关注相关信息[28] [47]。然而,这些基于CNN的方法的基本要素,即卷积算子,存在两个问题,不适用于图像恢复。首先,有限的卷积感受野阻碍了对长距离依赖的追求。其次,训练后的卷积滤波器具有固定的参数,不足以灵活地管理非均匀模糊。

为了消除上述问题,Transformer[13]模型被引入到低层任务[14],[48],[49],[50],[51],[52]中,并在图像复原中取得了很好的效果。Chen等[48]提出了一种图像处理Transformer,通过在合成的ImageNet上训练,挖掘Transformer对低级任务的能力[53]。然而,自注意力的二次复杂性使得这些方法对于通常涉及高分辨率输入的图像复原来说是昂贵的。最近,提出了一些改进方法来提高基于Transformer的方法的效率。Liang等人[49]和Wang等人[51]在基于窗口的自注意力基础上建立了基于Transformer的架构。iang等人[49]和Wang等人[51]在基于窗口的自注意力基础上建立了基于Transformer的架构。Zamir等人[50]提出了转置注意,它实现了跨通道而不是空间维度的自我注意。然而,降低自注意力的计算复杂度仍然是实际应用中的难点。在本研究中,我们不探索对Transformer的高级修改,而是从频率角度解决图像恢复问题,并将我们的模块应用于基于CNN的主干网,以实现高效率。

图像复原中的注意力机制:受其在高层任务中成功应用的启发,注意力机制被引入到低层任务中,选择性地关注重要信息。Qin等人[47]提出了一种结合像素注意力和通道注意力的特征注意力模块用于图像去雾。Zamir等人[28]开发了一个有监督的注意力模块来控制多阶段框架中两个阶段之间的信息传输。Chen等人[54]引入简化通道注意力和简单门来简化基线网络。最近,Li等人[55]提出了锚定条纹自注意力来高效地建模局部范围以外的依赖关系。Guo等人[56]设计了扩张自注意力来建模图像去噪的长距离依赖。这些注意机制主要集中在空间域。我们的频率机制是基于注意力机制来强调信息的频率信号。

图像复原中的频率学习:根据频谱卷积定理,可以使用快速傅里叶变换(FFT)对全局信息进行建模[57]。此外,高频信号代表图像的细节和纹理,而低频代表平滑和平坦的区域。因此,可以很容易地在频域中单独处理不同的频率子带。考虑到这些优点,已经提出了一些用于光谱域图像复原的深度框架。具体来说,Mao等人[19]使用傅里叶变换来整合高频和低频残差信息进行运动去模糊。Guo等人[56]提出了一种基于FFT的基于窗口的频率通道注意力来建模全局信息,并保持训练和推理阶段的模型一致性。Li等人[58]将傅里叶嵌入到模型中,通过分别处理振幅和相位来解决低照度图像增强问题。FFT还可以用来设计损失函数来丰富高频细节[24],[38],[46],[59]。

此外,也有利用小波变换进行图像复原的工作。Chen等人[21]提出了一种基于双树复小波表示的层次去雪网络[17]。Yang等人[18]开发了基于小波的U-Net来代替上采样和下采样。Zou等人[5]使用了一个基于小波变换的模块来帮助恢复纹理细节。Yang等人[60]设计了一个小波结构相似度损失函数用于训练。此外,一些算法还采用了其他技术来产生不同频率的信号,如卷积层[61]和传统滤波器[62]。

然而,上述方法更多地关注于后处理阶段,而忽略了频率分离过程,这对于在增强有用子带时准确地生成对恢复至关重要的频率和避免放大有害频率至关重要。在这项研究中,我们动态地将输入特征分解为不同的频率,并利用简单的注意力权重来突出信息频率。

III. PROPOSED METHOD

提出的FSNet的示意图如图2所示。在这一部分中,我们首先介绍了FSNet的整体流程。然后我们描述了我们设计的细节:MSL,MDSF和MCSF。最后,我们介绍了所使用的损失函数。

在这里插入图片描述

A. 总体架构

在这一部分中,我们首先介绍了FSNet的体系结构,然后详细介绍了流水线。FSNet采用编码器-解码器结构来学习分层表示。具体来说,FSNet由一个三尺度解码器和一个三尺度编码器组成。编码器和解码器的第一个尺度都由SUNet组成,SUNet是一个小型的UNet[6],以提供多尺度学习并降低复杂度。其他尺度主要由Res Block构成(图2 ©)。MDSF仅部署在ResBlock/SUNet的最后一个残差块中,而我们的轻量级MCSF存在于所有残差类型块中。遵循之前的方法[19]、[46],使用多输入多输出机制来缓解训练难度。

给定一幅H × W × 3的退化图像,其中3为通道数,H × W表示空间坐标,使用一个3 × 3的卷积层提取H × W × C大小的浅层特征,然后这些特征通过三个尺度的编码器子网络生成深度特征。在此过程中,编码器在扩展通道的同时逐渐降低分辨率。此外,低分辨率降质图像通过浅层(图2 (b))合并到主路径中,并进行拼接,然后进行3 × 3卷积调整通道。然后,将得到的最深特征输入到一个三尺度解码器中,通过逐步恢复特征到原来的大小来产生尖锐的特征。在此过程中,将解码器特征与编码器特征串联以辅助重建,并使用1 × 1卷积将通道数减少一半。通过3 × 3卷积和图像级跳跃连接,在两个ResBlock和最终的SUNet后生成三幅恢复图像。两个低分辨率结果仅用于训练。在图2 (a)中,为了简洁起见,我们只展示了顶层的图像跳跃连接。上采样层和下采样层分别由转置卷积和跨步卷积实现。

B. 多尺度学习(MSL)

受多级网络的启发,我们在编码器和解码器的第一个尺度中插入一个小的U-Net (SUNet),其中包含了最高分辨率的特征。除了采用大的U型骨架外,我们的SUNet提供了进一步的多尺度表示学习,并通过降低特征的分辨率来提高效率。SUNet的体系结构如图3所示。我们的模块MDSF和MCSF的部署方式与ResBlock相同,MCSF用于所有残差类型块,而MDSF只存在于最后一个残差类型块中。SUNet有n个残差型块,与ResBlock相同,即n = N + 1 (图2 ©)。给定大小为H × W × C的输入特征,首先使用n/4个分块提取特征,然后将得到的特征分辨率降为H/2 × W/2。经过n/2个分块后,将特征上采样到输入大小,进行后续处理。下采样和上采样分别通过深度卷积(步幅= 2 ,核= 2)和双线性插值实现。

在这里插入图片描述

C. 多支路动态选频模块(MDSF)

为了选择信息频率成分进行重构,MDSF主要包含两个元件:频率解耦器(图2 (d))和调制器(图2 (e))。解耦器基于学习到的滤波器将特征动态地分解为单独的频率部分,然后调制器利用通道注意力来突出有用的频率。此外,MDSF在通道维度间拆分特征以提供不同的局部感受野,然后应用不同的滤波器大小来分离部分。为了简单起见,我们只给出图2 (d)中的单分支情形。
在这里插入图片描述

为了动态分解特征图,我们利用可学习且理论上已被证明的低通滤波器(有关证明可参见附录,可在线查阅)和相应的高通滤波器来生成低频和高频图。学习到的滤波器在组维度上共享,以平衡复杂性和特征多样性。具体地,给定任意特征映射X∈RH × W × C,其中H × W表示空间维数,C表示通道数,我们首先利用滤波器生成层为每组输入生成低通滤波器,表示为:
F L = S o f t m a x ( B N ( W ( G A P ( X ) ) ) ) (1) F^L=\mathrm{Softmax}(\mathrm{BN}(W(\mathrm{GAP}(X))))\tag{1} FL=Softmax(BN(W(GAP(X))))(1)
其中 F L F^L FL R 1 × 1 × g k 2 \mathbb{R}^{1 × 1 × gk^2} R1×1×gk2重塑为 R g × k × k \mathbb{R}^{g × k × k} Rg×k×k,k × k为低通滤波器的核尺寸,g为分组数,BN、W和GAP分别为批归一化、卷积和全局平均池化的参数。在每个k × k滤波器上施加Softmax函数。与为每个像素生成滤波器相比,基于分组的操作具有更少的参数和更低的复杂度。第Ⅳ- C节讨论了群的个数。为了得到高通滤波器,我们将得到的低通滤波器从恒等式核中减去,其中中心值为1,其他处为零。接下来,对于每个组特征 X i ∈ R H × W × C i X_i∈\mathbb{R}^{H × W × C_i} XiRH×W×Ci,其中i为组索引, C i = C g C_i = \frac{C}{g} Ci=gC,利用相应的滤波器 F L F^L FL F H F^H FH ( ∈ R g × k × k ∈\mathbb{R}^{g × k × k} Rg×k×k)可以得到其低频和高频分量,表示为:
X i , h , w , c l = ∑ p , q F i , p , q L X i , h + p , w + q , c X i , h , w , c h = ∑ p , q F i , p , q H X i , h + p , w + q , c \begin{align} X_{i,h,w,c}^l=\sum_{p,q}F_{i,p,q}^LX_{i,h+p,w+q,c}\tag{2}\\ X_{i,h,w,c}^h=\sum_{p,q}F_{i,p,q}^HX_{i,h+p,w+q,c}\tag{3}\\ \end{align} Xi,h,w,cl=p,qFi,p,qLXi,h+p,w+q,cXi,h,w,ch=p,qFi,p,qHXi,h+p,w+q,c(2)(3)
其中c是通道的指标,h和w表示空间坐标;且p,q∈{ -1,0,1 }。

在这里插入图片描述

在将特征图解耦成不同的频率成分后,我们利用频率调制器来强调对重建真正有用的部分,如图2 (e)所示。形式上,给定两个频率图 X l X_l Xl X h X_h Xh,首先生成融合特征:
Z = W f c ( G A P ( X l + X h ) ) (4) Z=W_{fc}(\mathrm{GAP}(X^l+X^h))\tag{4} Z=Wfc(GAP(Xl+Xh))(4)
式中: W f W_{f} Wfc为全连接层参数。为了获得通道权重,我们使用另外两个全连接层,然后使用级联和Softmax函数,表示为:
[ W l , W h ] c = e [ W l ( Z ) , W h ( Z ) ] c ∑ j 2 C e [ W l ( Z ) , W h ( Z ) ] j (5) [W^l,W^h]_c=\frac{e^{[W_l(Z),W_h(Z)]_c}}{\sum_j^{2C}e^{[W_l(Z),W_h(Z)]_j}}\tag{5} [Wl,Wh]c=j2Ce[Wl(Z),Wh(Z)]je[Wl(Z),Wh(Z)]c(5)
其中 W l W_l Wl W h W_h Wh是两个频率部分的通道注意力权重; W l W_l Wl W h W_h Wh是全连接层的参数;[· , ·]表示拼接;而 c c c是级联特征的通道指数。然后,通过拆分操作得到最终的权重。

基于上述单分支情况,具有不同滤波器尺寸的多分支可以表示为:
X ^ = [ M 1 ( D 1 ( X 1 ) ) , … , M m ( D m ( X m ) ) ] (6) \hat{X}=[\mathcal{M}_1(\mathcal{D}_1(X_1)),\ldots,\mathcal{M}_m(\mathcal{D}_m(X_m))]\tag{6} X^=[M1(D1(X1)),,Mm(Dm(Xm))](6)
其中 D \mathcal{D} D M \mathcal{M} M分别表示解耦器和调制器, X m X_m Xm表示均匀分割特征。

D. 多支路紧凑型选频模块(MCSF)

由于感受野在图像复原中起着至关重要的作用,而退化模糊通常大小不一[19],[27],因此我们开发了MCSF来有效地扩大FSNet的感受野。MCSF有两个具有不同感受野的分支,即全局分支和基于窗口的分支。考虑到这些分支具有相似的范式,我们只详细介绍了基于窗口的分支,这是由基于窗口的注意力[63]的思想启发的。

具体来说,给定split特征 X ∈ R H × W × C 2 X∈\mathbb{R}^{H × W × \frac{C}{2}} XRH×W×2C,将其划分为4个窗口,每个窗口大小为 H 2 × W 2 × C 2 {\frac{H}{2} × \frac{W}{2} × \frac{C}{2}} 2H×2W×2C。为了得到低频部分,对得到的窗口进行全局平均池化。相应的高频部分可以通过从分区特征中减去低频图得到。为了选择有用的频率子带,我们通过可学习的通道权重来重新缩放这两个映射,这些权重通过反向传播直接优化。最后,将更新后的频率图反转为原始分辨率。全局分支具有类似的pipeline,但具有全局的感受野。

与MDSF相比,MCSF除了扩大了感受野外,并没有通过卷积层实现频率解耦和调制,导致参数更少,复杂度(详见表14)更低。因此,MCSF可以嵌入到多个位置。

没看到图

E. 损失函数

为了方便频率选择过程,我们在空域和频域都采用L1损失:
L s p a t i a l = ∑ s = 1 3 1 E s ∥ Y ^ s − Y s ∥ 1 L f r e q u e n c y = ∑ s = 1 3 1 E s ∥ F ( Y ^ s ) − F ( Y s ) ∥ 1 \begin{align} \mathcal{L}_{\mathrm{spatial}}&=\sum_{s=1}^3\frac{1}{E_s}\|\hat{Y}_s-Y_s\|_1\tag{7}\\ \mathcal{L}_{\mathrm{frequency}}&=\sum_{s=1}^3\frac{1}{E_s}\|\mathcal{F}(\hat{Y}_s)-\mathcal{F}(Y_s)\|_1\tag{8}\\ \end{align} LspatialLfrequency=s=13Es1Y^sYs1=s=13Es1F(Y^s)F(Ys)1(7)(8)
其中s表示不同尺度的输入/输出图像的索引;F表示快速傅里叶变换;Es是归一化的元素个数;和 Y ^ s \hat{Y}_s Y^s Y s Y_s Ys分别为输出图像和目标图像。最终的损失函数由 L = L space \mathcal{L} =\mathcal{L}_{\text{space}} L=Lspace + λ L frequency λ\mathcal{L}_{\text{frequency}} λLfrequency给出,其中λ取0.1。

IV. EXPERIMENTS

在这一部分中,我们对所提出的FSNet和其他先进方法产生的结果进行定量和定性评估。我们首先描述了实现细节和通用超参数。然后分别介绍了图像去雾、图像散焦去模糊、图像运动去模糊、图像去雨、图像去雪和图像去噪六个任务的数据集、具体训练设置和结果。表中的最佳和次佳结果分别是黑体的和划线的。

A. 实验装置

1)实现细节:针对不同的任务训练不同的模型。除另有规定外,采用以下参数。批次大小设置为4,patch大小为256 × 256。每个面片随机水平翻转,以0.5的概率进行数据增强。最初的学习率为1e-4,随着余弦退火逐渐降低到1e-6[64]。Adam (β1 = 0.9 , β2 = 0.999)用于训练。FSNet-S和FSNet的N (见图2 ©))分别设置为3和15。由于其他任务的复杂性,我们只评估了FSNet-S在图像去雾和去雪上的性能。MDSF有2个分支,滤波核大小分别为3 × 3和5 × 5,分组数为8。我们使用PyTorch在NVIDIA Tesla V100 GPU上实现了我们的模型。FLOPs在分块大小为256 × 256的情况下计算。

2)数据集:在这一部分,我们介绍了使用的数据集,并指定了训练配置。

图像去雾:我们在白天和夜间数据集上评估我们的模型。对于白天场景,使用合成数据集(RESIDE 、Haze4K)和真实世界数据集(NHHAZE , Dense-Haze)进行评估。RESIDE包括2个训练子集,室内训练集(ITS)和室外训练集(OTS),以及一个合成客观测试集(SOTS)。我们分别在ITS和OTS上训练模型,并在相应的测试集SOTS-Indoor和SOTS-Outdoor上进行测试。模型在ITS和OTS上分别训练1000次和30次,批次大小设置为8。初始学习速率为4e-4。我们进一步在更真实的合成数据集Haze4K[30]上训练FSNet。模型训练1000个epoch,批次大小为8,初始学习率为4e-4。此外,我们还包括用于评估的真实世界数据集Dense-Haze[65]和NH-HAZE[32],这两个数据集都包含55张成对图像。NH-HAZE包含非均匀的雾霾场景,而Dense-Haze包含均匀且密集的雾霾场景。该模型按照先前的方法[15]训练5000个epoch,块大小为600 × 800。初始学习率和批次大小分别设置为2e-4和2。此外,我们在夜间数据集NHR[31]上评估了我们的模型,该数据集包含16146和1794个图像对用于训练和测试。模型训练了300个epoch,批次大小为8。

单幅图像去焦去模糊:我们使用DPDD[23]来验证我们的方法的有效性,包括最近的方法[40],[50],[66]。该数据集包含500个室内外场景的图像,每个场景有4幅图像,分别标记为右视图、左视图、中心视图和全聚焦地面真值。DPDD分为训练集、验证集和测试集,分别包含350、74和76个场景。FSNet以中心视图图像为输入,计算输出与对应的ground truth图像之间的损失值进行训练。训练策略遵循[40]的方法。

图像去运动模糊:与最近的方法[28],[51]一致,我们使用GoPro数据集[25]训练FSNet,其中包括2103张用于训练的模糊/清晰图像对和1111张用于评估的图像对。为了验证我们方法的泛化能力,我们直接将GoPro训练的模型应用到HIDE数据集[67]中,该数据集包含2025个图像对用于评估。Go Pro和HIDE中的图像都是综合生成的。为了评估我们的方法在真实世界图像上的性能,我们在RSBlur[22]数据集上进一步评估。分别有8878和3360个图像对用于训练和评估。我们在GoPro和RSBlur上分别训练了3000和710个epoch。此外,我们直接将GoPro训练好的模型应用到另一个广泛使用的真实世界数据集RealBlur-R[33]中,该数据集有980张成对图像用于评估。

图像去雨:根据现有的技术[68],[69],我们使用了一个包含13712张图像对的复合训练数据集,该数据集从几个数据集[70],[71],[72],[73]中收集。FSNet在Rain100H[71]、Rain100L[71]、Test100[72]、Test1200[74]和Test2800[70]5个数据集上进行评估。网络训练了300个epoch。

图像去雪:我们采用CSD[21],SRRS[41]和Snow100K[75]数据集进行去雪任务。数据集的设置遵循先前的工作[24],[41],其中我们从训练集中随机抽取2500张图像对进行训练,从测试集中随机抽取2000张图像进行评估。模型在每个数据集上训练800个epoch。

图像去噪:继[49],[50]之后,我们在一个用于图像去噪的复合数据集上训练提出的模型。噪声图像是通过在清晰图像中添加不同水平(σ∈{ 15,25,50 })的加性高斯白噪声产生的。在BSD68[76]数据集上对训练好的模型进行评估。对于不同的噪声水平,我们训练了300个epoch的独立模型,批量大小为8。

B. 实验结果

1)图像去雾:在合成的RESIDE[20]数据集上的定量结果如表II所示。我们的FSNet和FSNet-S在所有指标上分别获得了最高和次高的分数。特别是在室外场景下,FSNet在参数仅为10 %的情况下,比De Hamer[15]获得了5.22 dB PSNR的大幅提升。与DehazeFormer-L[16]相比,FSNet-S在SOTS-Indoor测试集上以88 %的低复杂度获得了0.42 dB的PSNR提升。我们的FSNet在SOTS-Indoor上达到了42.45 dB的PSNR,这远远高于其他先进的方法,并且具有相当的FLOPs。

在这里插入图片描述

此外,在更真实的合成数据集Haze4K[30]上的结果如表III所示。与PMNet[78]相比,FSNet在减少30 %参数的情况下,PSNR提高了0.63 d B,SSIM提高了0.01。

在这里插入图片描述

此外,我们在真实的雾霾数据集Dense-Haze[65]和NH-HAZE[32]上验证了本文方法的性能。结果见表IV。我们可以看到,在真实世界的去雾问题上,我们的FSNetS与最先进的算法相比表现良好,在Dense-Haze上比PMNet[78]获得了0.21 dB PSNR和0.14 SSIM的增益。

在这里插入图片描述

此外,在夜间去雾数据集上,我们的两个版本明显优于其他算法,如表V所示。

在这里插入图片描述

从图4、图5和图6可以看出,我们的方法比其他框架更有效地去除雾霾。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2)单幅图像散焦去模糊:表VI显示了DPDD上散焦去模糊方法之间的数值比较[23]。我们的FSNet在大多数指标上都超过了其他最先进的方法。特别是在组合场景下,FSNet在参数仅为51 %的情况下,比最近的基于Transformer的方法Rerioter[50]获得了0.24 dB的PSNR提升,如图1 (d)所示。此外,我们的方法比基于CNN的DRBNet[40]提供了0.5 dB的显著增益。

在这里插入图片描述

图7的可视化结果表明,与其他算法相比,我们的方法恢复了更多的细节。

在这里插入图片描述

3)图像去运动模糊:我们在合成的(GoPro[25]、HIDE[67])和真实的(RSBlur 、RealBlur)数据集上评估了我们的方法。GoPro[25]和HIDE[67]的数值比较见表VII。

在这里插入图片描述

在GoPro上,FSNet在PSNR性能上比Restromer[50]提高了0.37 d B,推理速度提高了3.4倍(表VIII)。在GoPro上,FSNet在PSNR性能上比Restromer[50]提高了0.37 d B,推理速度提高了3.4倍(表VIII)。此外,与Stripformer[14]相比,我们的方法获得了0.21 dB的性能增益。值得注意的是,我们的FSNet在所有指标上对HIDE数据集显示出比Stripformer更强的泛化能力。

在这里插入图片描述

除了合成数据集,我们还在真实世界的数据集上进一步评估了我们网络的有效性。表IX显示了在新提出的RSBlur[22]数据集上的定量比较。FSNet在该数据集上以较少的参数(见图1 ©)获得了最先进的性能)。具体地,我们的模型比基于强Transformer的算法Uformer-B[51]提供了0.33 dB的PSNR的显著增益。

在这里插入图片描述

此外,对于真实场景,根据文献[69],我们将GoProtrained模型直接应用于另一个真实数据集RealBlur-R[33]。结果见表X。与基于MLP的方法MAXIM-3S[69]相比,我们的模型以38%的参数和34%的低复杂度提供了0.06 dB PSNR和0.005 SSIM的性能增益。

在这里插入图片描述

图8、图9、图10和图11分别为GoPro、HIDE、RSBlur和RealBlur-R数据集上的可视化结果。结果表明,所提出的FSNet比同类算法产生了更令人愉快的结果。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

4)图像去雨:根据最近的工作[28]、[68],在YCb Cr颜色空间中比较Y通道的PSNR/SSIM值。表XI表明,我们的方法与其他去雨方法相比表现良好。具体来说,在Rain100H数据集[71]上,提出的FSNet比HINet[89]获得了1.12 dB PSNR的性能提升。

在这里插入图片描述

图12中的视觉结果表明,我们的模型产生了没有伪影的忠实图像。

在这里插入图片描述

5)图像去雪:我们在CSD[98],SRRS[41]和Snow100K[75]数据集上评估了我们的模型。在表Ⅻ中,我们的FSNet-S比其他最先进的算法表现更好。在所有数据集上,大版本FSNet在PSNR方面获得了进一步的性能提升。具体地,在CSD[21]数据集上,FSNet比TransWeather[97]的PSNR提高了6.61 dB。CSD由于其更加复杂的雪天场景,通过加深网络产生的性能增益是显著的。

在这里插入图片描述

图13中的可视化结果表明,我们的方法在去除空间变化的雪花方面比竞争者更有效。

在这里插入图片描述

6)图像去噪:在BSD68[76]数据集上的高斯灰度图像去噪结果如表XIII所示。可以看出,所提出的FSNet在所有噪声水平下都优于Restormer[50],并且具有较低的复杂度。可以看出,所提出的FSNet在所有噪声水平下都优于Restormer[50],并且具有较低的复杂度。此外,与Swin IR[49]相比,FSNet在σ = 50时获得了0.07 d B的增益,FLOPs减少了85 %。

在这里插入图片描述

图14中的视觉比较表明,我们的结果更接近于真实图像。结果验证了本文方法的有效性。

在这里插入图片描述

C. 消融研究

在这一部分中,我们首先证明了所提出的模块的有效性,然后研究了每个模块的不同设计的效果。最后,我们对MDCF的作用机制进行了深入研究,以证明其有效性。除非另有说明,模型均在GoPro[25]数据集上训练1000个历元,图2中N设置为7。基线网络是从我们的模型中移除MDSF,MCSF和MSL得到的。其他训练设置与最终的运动去模糊模型相同。

各模块有效性:表XIV (a)显示基线模型获得31.20 d B PSNR。MDSF (表XIV (b))和MCSF (表XIV ©)在引入的复杂度较低的情况下,比基线模型分别获得了0.22 d B和0.25 d B的性能增益。MDSF仅在每个尺度的单一位置部署,表现出与MCSF相似的性能,证明了动态频率选择机制的有效性。同时使用MDSF和MCSF,该模型获得了31.68 dB的PSNR (表XIV (d))。当配备MSL (表XIV (e))时,该模型以更少的11 %的FLOP实现了0.07 dB PSNR的性能增益,验证了我们的多尺度学习机制的有效性。

在这里插入图片描述

此外,在图15中,我们绘制了三种方法在运动去模糊(GoPro[25])和去雾(SOTS-Outdoor)上的结果与真实值之间的方差差异。结果是通过计算测试集中随机抽取的100幅图像的平均值得到的。我们的结果是由FSNet产生的。通过频率选择机制,我们的结果的统计量更接近于真实值。

在这里插入图片描述

MCDF的数量:我们研究了表XV中MCDF数量的影响,其中2 MCSF是指我们在Net ©中每个ResBlock的最后两个残差块中使用所提出的MCSF (表XIV)。可以看出,在仅引入0.01 M参数和0.04 G FLOPs的情况下,使用更多的MCSF将性能从31.22 dB PSNR持续增加到31.45 dB PSNR。由于其引入的参数较少,复杂度较低,我们在每个残差块中插入MCSF进行频率学习。

在这里插入图片描述

MDSF数量:为了了解MDSF中组数的影响,我们通过改变Net (b)中的组数进行实验(表XIV)。结果见表XVI。一般来说,分组数的增加会导致更高的PSNR,证明了滤波器多样性的有效性。然而,在第8组准确率达到饱和,这可能是由于过拟合造成的。因此,我们最终挑选了8组表现较好的一组。

在这里插入图片描述

MSL的设计选择:MSL提高了GoPro[25]的效率和性能,如表XIV所示。为了探索这种机制的潜力,我们还在解码器和编码器的中间尺度上使用了MSL。如表XVII所示,尽管复杂度较低,但更多的MSL会导致性能下降。原因可能是空间信息丢失的缺点超过了在较小分辨率特征上使用多尺度学习的优势。因此,为了在性能和复杂度之间取得更好的平衡,我们只在模型的第一个尺度上部署MSL。
在这里插入图片描述

MDSF的替代方案:为了检验我们设计的优势,我们将我们的解耦器与表XVIII中的几个替代方案进行了比较。我们首先用基于学习的和固定频率的分离方法来代替我们的解耦器。我们通过使用跨步卷积来生成不同频率部分的降低分辨率的Conv方法(表XVIII (a))[61]。我们通过使用跨步卷积来生成不同频率部分的降低分辨率的Conv方法(表XVIII (a))[61]。Octconv (表XVIII (b))版本[106]与Conv有着相似的思想,它利用下采样来减少网络冗余。这些变体只是给网络引入了额外的低频信号,并不如我们的MDSF。Gaussian (表XVIII©)和Wavelet (表XVIII(b))也得到了类似的结果,远低于我们的MDSF。此外,小波需要更多的参数来处理它的多个分支。由于我们的滤波核是通过学习生成的,我们进一步将我们的MDSF与两种注意力方法进行比较,以验证所提出的选择机制的有效性。具体来说,我们利用广泛使用的基于窗口的自注意力[51] (表XVIII (e))和动态卷积[107],[108] (表XVIII (f))进行比较。从表中可以看出,我们的方法比这些方法具有明显的优势,证明了MDSF的有效性。

在这里插入图片描述

我们进一步将我们的调制器与SKNet[105]进行了比较,SKNet[105]在不同特征中对具有相同索引的通道施加Softmax函数。从表XIX可以看出,本文方法的PSNR比SKNet版本提高了0.01 d B,说明了本文设计的有效性。

在这里插入图片描述

D. MDSF的定性分析

我们使用离散傅里叶变换对MDSF进行了定性分析。结果由Net (b)中的3 × 3滤波器分支得到(表XIV)。从Go Pro[25]中采样输入图像,如图18所示。特征来自于解码器最后一个ResBlock中的最后一个残差块。

我们首先验证MDSF中所谓的低通/高通滤波器的性质。为此,我们迭代地将生成的滤波器应用于图像。中间图像的方差和相应的光谱特征如图16所示。以低通滤波器为例,随着迭代次数的增加,图像的方差不断减小,光谱特征中的高频信号急剧减少。高通滤波器则表现出相反的特性。这些结果证明了我们的滤波器的有效性。值得注意的是,高通滤波器在较少的迭代次数下产生较大的方差,因此它比低通滤波器更有效。因此,MDSF很容易将更多的高频信号引入到网络中进行重构。

在这里插入图片描述

在MDSF中,我们为每个组生成不同的滤波器,以增强频率特征的多样性。为了深入探究这一机制,我们将图17中的分组光谱特征可视化。正如预期的那样,不同的群体专注于学习不同的低频/高频信号,丰富了用于选择的频率表示的多样性。

在这里插入图片描述

进一步比较MDSF前后的特征图,如图18所示。利用得到的滤波器,MDSF的解耦器产生不同的频率成分。高频特征包含了丰富的边缘信息。调制器后的结果特征恢复了初始特征中模糊的数字板块的更多细节。

在这里插入图片描述

V. LIMITATIONS

尽管具有优越的性能,我们的模型仍然难以从严重的运动模糊中完全恢复清晰图像,例如图8和10中的数字板块。此外,我们在真实世界的去雾数据集DenseHaze[65]上展示了我们的结果,如图19。可以看到,我们的结果在颜色和文本细节方面与真实值之间存在明显的差距,这是由于真实世界训练数据的缺乏造成的。在未来的工作中,我们将开发先进的域适应方法,以充分利用合成数据集,对真实世界的退化图像进行高质量的重建。

在这里插入图片描述

此外,我们在图20中展示了我们模型的一个失败案例。尽管FSNet的得分较高,但在恢复大面积背景的铁纱布细节方面不如DeepRFT[19]。这可能是因为我们的MCSF仅使用二进制频率分解进行重建,无法在重叠场景,即背景和薄物体(铁丝/串)之间取得平衡。相比之下,在DeepRFT中生成的光谱特征包含了比我们更多的光谱。另一方面,MCSF专注于调制最低频率和互补的高频率,因此可以产生高质量的全局信息,如光照,从而获得更高的分数。

在这里插入图片描述

VI. CONCLUSION

作者提出了一个基于提出的频率选择机制的图像复原框架FSNet。我们开发了MDSF和MCSF两个关键模块,以不同的感受野进行频率分解和重新校准。具体来说,我们的多分支动态选择频率模块(MDSF)构建动态滤波器,将特征图分解为不同的频率部分,并利用通道注意力进行强调,从而有效地选择最有信息的频率进行恢复。此外,所提出的多分支紧凑型频率选择模块(MCSF)引入了一种简单而有效的方式来扩大感受野并进行频率选择。此外,我们在模型中插入一个小的U-Net,以提供多尺度学习(MSL)并提高效率。通过这些设计,我们的模型在6个图像复原任务的20个基准数据集上取得了优于最先进算法的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值