论文翻译:LKD-Net: Large Kernel Convolution Network for Single Image Dehazing

Abstract

基于深度卷积神经网络(CNN)的单图像去噪方法已经取得了显著的成功。前面的方法致力于通过增加网络的深度和宽度来提高网络的性能。当前的方法侧重于增加卷积核大小,以通过受益于更大的感受野来增强其性能。然而,直接增加卷积核的大小会引入大量的计算开销和参数。因此,本文设计了一种新的大核卷积去重块(LKD块),它由分解深度大核卷积块(DLKCB)和信道增强前馈网络(CEFN)组成。所设计的DLKCB可以将深度方向的大核卷积拆分为较小的深度方向卷积和深度方向的扩展卷积,而不引入大量参数和计算开销。同时,设计的CEFN在前馈网络中引入了信道注意机制,以利用重要信道并增强鲁棒性。通过组合多个LKD块和上下采样模块,实现了大核卷积去重网络(LKD-Net)。评估结果证明了设计的DLKCB和CEFN的有效性,我们的LKD网络优于最先进的。在SOTS室内数据集上,我们的LKD Net显著优于基于Transformer的方法Dehamer,仅具有1.79%的#Param和48.9%的FLOP。

Introduction:

最近的深度卷积神经网络(Krizhevsky、Sutskever和Hinton 2012)(CNNs)在单图像去噪方面取得了成功,基于深度学习的图像去噪方法可分为两大类。第一类基于CNN的方法主要侧重于增加网络的深度和宽度,或设计一个大的核卷积来提高图像去噪的性能(Guo等人,2022b),(Qin等人,2020),(Wu等人,2021),(Dong等人,2020a)。将大核引入神经网络可以扩大接受域,并在学习的潜在域空间中捕获更多结构化信息。然而,由于卷积核大小的二次计算复杂性,扩大卷积核的大小会导致更多的计算开销和参数(Ding等人,2022)。第二类是基于视觉变换器(也称为ViT)的方法(Guo等人,2022a),(Zhao等人,2021)。由于多头自我注意(MHSA)机制中的大内核的操作,ViT中的MHSA可以整合来自大感受野的信息,并对长程依赖性进行建模。可以注意到,基于神经网络和基于视觉变换器的方法中的大内核操作都可以有效地构建大的有效感受野以提高性能。然而,大型内核操作在计算上是昂贵的,因为内核大小会二次增加参数和浮点操作(FLOP)的数量。此外,还发现基于神经网络和基于视觉变换器的图像去噪方法处理前馈网络(FN)中的信道同样重要。然而,FN中的各种信道特征具有附加的加权信息。如果我们平等对待它们,FN将在不重要信道的不必要计算上花费大量资源,并显著降低网络优化的效率

因此,本文设计了一种新的大核卷积去重块(LKD块)来解决上述限制。具体来说,受卷积分解机制(Guo et al.2022b)和(Zamir et al.2021)的激励,设计了大核卷积块(DLKCB)的分解,以取代ViT中的多头自关注(MHSA)。DLKCB通过将传统的大深度方向核卷积分解为小深度方向卷积和深度方向扩展卷积的组合,在不增加更多计算开销和参数的情况下,增加了有效感受野,并在特征之间建立了长距离信息此外,还设计了信道增强前馈网络(CEFN),该网络将信道注意机制(Hu、Shen和Sun 2018)集成到传统FN中,以通过利用FN中的重要和关键信道来提高网络优化的效率。通过结合DLKCB和CEFN,实现了我们的大型内核卷积去重块(LKD块),它可以被视为一个插件,并添加到用于高级和低级计算机视觉任务的CNN和ViT的深层架构中。本文将LKD块添加到多个U-Net-like去哈希网络中,以实现高性能的单图像去哈希(表示为LKD-Net)。

LKDNet的主要贡献:

我们提出了LKD-Net,这是一种高效的端到端多U-Net-like深度架构,用于单图像去隐藏。LKD Net通过使用显著更少的参数和更低的计算开销而优于最先进的方法。

我们设计了大型内核卷积去重块(LKD块),它可以用作插件模块,以增强CNNs和Transformer架构的性能。同时,与基于Transformer的方法相比,LKD块对于单个图像去阴影任务更有效。

我们设计了分解大核卷积块(DLKCB),它将大深度卷积分解为小深度卷积和深度扩展卷积,以在不增加大量参数和计算开销的情况下增加有效感受野。

我们设计了信道增强前馈网络(CEFN),它可以有效地探索和整合FN中具有更多关键信息的信道,进一步提高了网络优化的鲁棒性和效率。

Method

SK融合用于替换级联融合层,该层使用信道关注机制来融合不同分支的特征。软重构层(Soft Reconstruction)用于替换全局残差学习,这在全局残差学习之前引入了弱约束,从而导致更好的网络性能。

Large Kernel Convolution Dehaze Block

如图2(b)所示,我们的LKD模块主要包含两个模块,即设计的DLKCB和CEFN。DLKCB用于处理空间维度的信息,这有利于网络通过增加有效感受野来保留更多的空间结构信息。 CEFN用于处理信道维度中的信息。与传统的前馈网络(FN)相比,CEFN通过使用信道注意力提高了网络优化的效率(Hu,Shen,and Sun 2018)。CEFN可以不平等地对待不同的信道,使网络更加关注具有更关键信息的信道。此外,我们的LKD块可以被视为类似于Transformer的CNNs插件,它使用设计的DLKCB替换Transformer中的MHSA以提高性能,并使用CEFN替换CNNs中的FN以提高效率。因此,LKD块可以用作CNN和ViT中的插件模块,用于高级和低级计算机视觉任务。此外,我们的DLKCB体系结构与基于变换的方法(Liu等人,2021b)、(Dosovitskiy等人,2021)具有相同的放大能力,使我们的网络能够比传统CNN更适应具有不同计算性能的设备。详细的实验结果将证明我们的LKD块与其他架构相比的效率

Decomposition Large Kernel Convolution Block

大的感受野增加了深度模型在特征域空间中捕获更多结构化信息的能力(Wu等人,2021),这对图像去噪至关重要。最常用的方法是通过叠加几个小卷积(Qin et al.2020)、(Wu et al.2021)、(Dong et al.2020a)(例如,3×3卷积)来增加网络的深度,以增加感受野。然而,这种方法可以增加理论上的感受野,但在增加有效感受野(ERF)方面受到限制(Luo等人,2016)。许多作品(Long、Shelhamer和Darrell,2015)、(Peng等人,2017)、(Yu、Koltun和Funkhouser,2017)证明了ERF在视觉任务执行中的关键作用。最近的工作(Ding等人,2022)表明,大深度卷积(large depth-wise convolutions)可以有效地增加ERF。然而,直接使用大深度卷积会引入大量的计算开销和参数。为了缓解这个问题,我们提出了分解大核卷积块,如图2(b)所示。大核卷积分解的细节如图3所示,传统的大深度卷积分解为较小的深度卷积和深度扩展卷积。参数P(K,d)和FLOP F(K,d)的大深度卷积的分解方程表示如下:

其中K表示核大小,d表示膨胀率

Channel Enhanced Feed-forward Network

一些研究(Qin et al.2020),(Hu,Shen,and Sun 2018)表明,不同的频道特征具有完全不同的权重信息。换句话说,某些信道特征在网络优化中并不特别重要。因此,如果我们平等对待这些渠道,我们将把资源放在不太重要的信息上,并影响网络的性能。为此,我们建议采用CEFN,如图2(b)所示。我们将信道注意力纳入传统前馈网络(FN),这允许传统FN重新加权不同的信道特征。此外,在(Guo et al.2022b)和(Li et al.2021)的基础上,我们将3×3的纵向卷积放入传统FN中,以便它能够编码特征空间上相邻像素的位置信息。CEFN的公式表示如下:

norm is batch normalization.(batch size? How to use in image demoireing?)

Experiments

我们根据参数数量和计算开销将LKD-Net分为LKD-T、LKD-S、LKD-B和LKD-L,分别对应于微小、小、基本和大。表2列出了这些变体的配置细节。所有型号均采用PyTorch 1.10.1在两个NVIDIA TITAN Xp GPU上实现。AdamW(Loshchilov和Hutter 2019)优化器用于优化我们的LKD网络,指数衰减率β1和β2分别等于0.9和0.999。初始学习率设置为0.0002,并使用余弦退火策略来调整学习率。批次大小设置为16补丁大小设置为256×256,随机裁剪。我们只使用L1损耗来优化LKD网络。我们默认分解了21×21卷积,这被证明在工作中具有最佳的参数性能权衡(Guo等人,2022b)。

根据客观评估协议(Qin等人,2020年)、(Wu等人,2021)、(Song等人,2022年),我们的LKD-Net分别在ITS和OTS上接受了300个时代的培训,并在SOTS子集上进行了评估。

Result

Ablation Study

进行消融研究以证明LKD-Net中每个拟议组件的有效性,并使用最小模型LKD-T进行消融分析。我们首先构建一个Base网络作为我们的基线,它通过用7×7深度卷积代替深度卷积的21×21分解,用常规前馈网络(FN)代替CEFN,用级联代替SK融合,用全局残差学习代替SR来实现。

随后,我们将不同的模块替换成基本网络,构建四种不同的变体:

(1)base+SF:用SK Fusion替换base中的级联。

(2) Base+SF+SR:用软重构代替Base+SF中的全局剩余学习

(3)Base+SF+SR+DLK:用21×21深度卷积分解替换Base+SF+SR中的7×7深度卷积。

(4) Base+SF+SR+CEFN:用CEFN替换Base+SF+SR中的常规前馈网络(FN)。

(5) 我们的:用21×21深度卷积分解代替Base+SF+SR+CEFN中的7×7深度卷积。

这些模型在ITS数据集上进行训练,并在SOTS室内集上进行评估。表3总结了这些模型的性能。

此外,我们还使用其他传统的大深度卷积进行了消融实验,以证明我们DLK的优势。表4显示,与9×9深度卷积和21×21深度卷积相比,我们的DLK使用更少的计算开销和参数实现了更好的性能。我们认为,DLK高效的主要原因是,与传统的大深度卷积相比,它可以捕获更大的ERF。为了支持我们的观点,我们使用公共工具(代码可在(Ding et al.2022)获得)来可视化LKDNet L3输出的特征图质心的ERF。

CEFN的有效性。与Base+SF+SR相比,CEFN显著提高了性能,PSNR增加了1.55 dB,SSIM增加了0.005,仅引入了0.019M#Param和0.2G FLOP。我们认为,CEFN高效的主要原因是渠道关注机制(Hu、Shen和Sun 2018)允许CEFN更多地关注具有重要信息的渠道。

Conclusion

本文提出了一种用于高性能单图像去噪的新型LKD网络。所设计的DLKCB可以有效地捕获ERF并对远程信息进行建模,所设计的CEFN可以有效地增强FN中的信道维度特征。评估结果表明,LKDNet优于最新技术,显著优于基于Transformer的方法Dehamer。因此,我们认为我们的LKD Net是一种有效且通用的端到端图像恢复方法,可用于视频去噪和其他低级计算机视觉任务,如图像去噪、雨水去除、去模糊、超分辨率等。此外,DLKCB中深度卷积的分解可用于CNN和ViT中,以增强低级和高级视觉任务的性能。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值