Efficient Frequency Domain-based Transformersfor High-Quality Image Deblurring

高质量图像去模糊的高效频域变压器

摘要:

我们提出了一种有效的方法,探索变压器在频域的特性,用于高质量的图像去模糊。我们的方法是由卷积定理驱动的,即两个信号在空间域中的相关或卷积相当于它们在频域中的元素积

这启发我们开发一种有效的基于频域的自注意求解器(FSAS),通过元素积运算来估计缩放后的点积注意,而不是在空间域中的矩阵乘法。此外,我们注意到,在transformer中简单地使用朴素前馈网络(FFN)并不能产生良好的去模糊结果。为了克服这个问题,我们提出了一种简单而有效的基于鉴别频域的FFN (DFFN),其中我们在FFN中引入了一种基于联合摄影专家组(JPEG)压缩算法的门控机制,以判别应该保留哪些低频和高频特征信息以进行潜在的清晰图像恢复。我们将提出的FSAS和DFFN形成一个基于编码器和解码器架构的不对称网络,其中FSAS仅用于解码器模块以更好地去除图像模糊。实验结果表明,该方法优于现有的方法。

介绍:

我们开发了一个有效的基于频域的自注意求解器来估计尺度点积注意。我们的分析表明,使用基于频域的求解器降低了空间和时间复杂度,并且更加有效和高效。

•我们提出了一种简单而有效的基于JPEG压缩算法的鉴别频域FFN,以鉴别地确定应该保留哪些低频和高频信息以进行潜在的清晰图像恢复。

•我们开发了一种基于编码器和解码器网络的非对称网络架构,其中基于频域的自关注求解器仅用于解码器模块,以更好地消除图像模糊。

•我们分析了变压器在频域的探索特性能够促进模糊去除,并表明我们的方法优于最先进的方法。

Related Work

基于cnn的深度图像去模糊方法。近年来,由于不同深度CNN模型的发展,我们在图像去模糊方面取得了重大进展[3,4,9,16,22,31,32]。在[16]中,Nah等人提出了一种基于多尺度框架的深度CNN,直接从模糊图像中估计清晰图像。为了更好地利用多尺度框架中各个尺度的信息,Tao等[22]开发了一种有效的尺度循环网络。Gao等[9]提出了一种选择性网络参数共享方法来改进[16,22]。

由于使用更多的尺度并不能显著提高性能,Zhang等[32]开发了一种基于多补丁策略的有效网络。去模糊处理是逐步实现的。为了更好地挖掘不同阶段的特征,Zamir等[31]提出了一种跨阶段的特征融合,以获得更好的性能。为了降低基于多尺度框架的方法的计算成本,Cho等[4]提出了一种多输入多输出网络。Chen等[3]对基线模块进行分析,并对其进行简化,以更好地恢复图像。如文献[30]所示,卷积操作是空间不变的,不能有效地模拟图像去模糊的全局环境。

变形金刚及其在图像去模糊中的应用。由于Transformer[25]可以对全局上下文进行建模,并在许多高级视觉任务(如图像分类[14]、目标检测[1,34]和语义分割[28,35])中取得了重大进展,因此它已被开发用于解决图像超分辨率[13]、图像去模糊[24,30]和图像去噪[2,27]。为了降低Transformer的计算成本,Zamir等[30]通过计算缩放后的点积注意力,提出了一种高效的Transformer模型

在特征深度域中。该方法可以沿通道维度有效地挖掘不同特征的信息。然而,对图像恢复至关重要的空间信息并没有得到充分的探索。Tsai等[24]通过构造条内和条间令牌来代替全局关注,简化了自关注的计算。Wang等人[27]提出了一种基于UNet的Transformer,它使用基于非重叠窗口的自关注进行单幅图像去模糊。虽然使用分割策略减少了计算成本,但粗分割不能充分挖掘每个patch的信息。此外,这些方法中的尺度点积注意通常需要复杂的矩阵乘法,其空间和时间复杂度均为二次。

与这些方法不同,我们开发了一种有效的基于变压器的方法,该方法探索了频域的性质,避免了对缩放点积的复杂矩阵乘法的关注。

方法:

我们的目标是提出一种有效的方法来探索变压器的特性,以实现高质量的图像去模糊。为此,我们首先开发了一个有效的基于频域的自注意力求解器来估计缩放后的点积注意力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值