【对称CNN:递归Transformer:SR:轻量级】

Lightweight Bimodal Network for Single-Image Super-Resolution via Symmetric CNN and Recursive Transformer

(基于对称CNN和递归Transformer的单图像超分辨率轻量级双峰网络)

随着深度学习的发展,单幅图像超分辨率(SISR)取得了重大突破。然而,这些方法很难应用于现实世界的场景,因为它们不可避免地伴随着复杂的操作所导致的计算和内存开销的问题。为了解决这个问题,我们提出了一个轻量级双峰网络(LBNet)的SISR。具体地,一个有效的对称CNN设计的局部特征提取和粗图像重建。同时,我们提出了一个递归变换器,充分学习图像的长期依赖性,从而可以充分利用全局信息来进一步细化纹理细节。研究表明,CNN和Transformer的混合可以构建更有效的模型。大量的实验已经证明,我们的LBNet实现了更突出的性能比其他先进的方法具有相对较低的计算成本和内存消耗。

Introduction

单幅图像超分辨率(SISR)的目标是从退化的低分辨率图像中恢复出具有丰富细节和更好视觉质量的高分辨率图像。近年来,基于卷积神经网络(CNN)的SISR方法由于其强大的特征提取能力而取得了比传统方法显着的性能。近年来,基于卷积神经网络(CNN)的SISR方法由于其强大的特征提取能力而取得了比传统方法显着的性能。例如,Dong等人,超分辨率卷积神经网络(SRCNN)。后来,随着ResNet的出现[He等人,2016]和DenseNet [Huang等人,2017],已经提出了大量基于CNN的SISR模型,如VDSR [Kim et al.2016a]、EDSR [Lim等人,2017]和RCAN [Zhang等人,2018年]。所有这些方法都表明,网络越深,性能越好。然而,这些方法难以用于具有有限存储和计算能力的现实场景中。因此,一种既能实现更好性能又能保持网络轻量化的模型成为一个有吸引力的研究对象。其中一个最广泛使用的策略就是引入递归机制,比如DRCN [Kim等人,2016]和DRRN [Tai等人,2017]。另一个是探索轻量化结构,包括CARN[Ahn等人,2018]、FDIWN [Gao等人,2022]和PFFN [Zhang等人,2021a]。虽然这些模型通过各种策略和结构在一定程度上减少了模型参数的数量,但也导致了性能的下降,从而难以重建具有丰富细节的高质量图像。
近年来,随着Transformer在自然语言处理(NLP)中的不断进步,如何将其应用于计算机视觉任务成为了一个热门话题。Transformer可以对图像中的长期依赖性进行建模,这种强大的表示能力可以帮助恢复图像的纹理细节。然而,大多数方法盲目地使用Transformer来替换所有原始CNN结构,这是不合理的,因为CNN提取局部特征的能力是不可替代的。这些特征在不同的视角下都能保持自身的稳定性,也称为局部不变性,有助于图像的理解和重建。因此,我们建议融合CNN和Transformer,以充分利用两者的优势,实现高效的SR图像重建。
为了实现这一目标,我们提出了一个轻量级的双峰网络(LBNet)的SISR。在LBNet中,我们使用CNN和Transformer来实现双模协调重建。至于CNN部分,我们专注于局部特征提取。具体而言,我们提出了一个新的局部特征融合模块(LFFM),它包括一系列的特征细化双注意块(FRDAB)。FRDAB使用通道缩减策略来减少模型的参数,并引入通道注意和空间注意机制来重新加权从不同分支提取的特征信息。同时,为了平衡模型的性能和规模,引入参数共享策略构建类对称网络,将前一级共享模块的输出通过信道注意力模块整合为当前模块的输入。该方法可以最大限度地利用前馈特征来恢复纹理细节。对于Transformer部分,我们提出了一个递归Transformer来学习图像的长期依赖性,从而可以进一步细化纹理细节与全局信息。
概括起来,主要贡献如下:
1)我们提出了一个有效的对称CNN局部特征提取和粗图像重建。其中,局部特征融合模块(LFFM)和特征细化双注意块(FRDAB)是专门设计的特征提取和利用。
2)我们提出了一个递归Transformer来学习图像的长期依赖性。这是Transformer中递归机制的第一次尝试,它可以通过全局信息来细化纹理细节,并且参数和GPU内存消耗很少。
3)我们提出了一种新的轻量级双峰网络(LBNet)的SISR。LBNet集成了CNN和Transformer,使其能够在模型的性能、大小、执行时间和GPU内存消耗之间实现更好的平衡。

Related Works

CNN-based SISR

得益于CNN强大的特征表示和学习能力,基于CNN的SISR方法近年来取得了很大进展[Li 等人,2021a]。例如,SRCNN [Dong等人,2014年]首次将CNN应用于SISR,并在当时取得了有竞争力的性能。EDSR [Lim等人,2017年]通过使用残差块大大提高了模型性能[He等人,2016年]。RCAN [Zhang等人,2018]引入渠道关注机制,构建800层网络。除了这些深度网络之外,近年来还提出了许多轻量级SISR模型。例如,Ahn等人通过使用级联机制提出了一种轻量级级联残差网络(CARN)。Hui等人通过使用蒸馏和选择性融合策略提出了信息多蒸馏网络(IMDN)。MADNet [Lan等人,2020]使用密集的轻量级网络来增强多尺度特征表示和学习。Xiao等人提出了一种简单但有效的SISR深度轻量级模型,可以根据每个位置的局部信息自适应地生成卷积核。然而,这些轻量级模型的性能并不理想,因为它们不能获得更大的感受野和全局信息。

Transformer-based SISR

为了对图像的长期依赖性进行建模,越来越多的研究者关注Transformer,它最早应用于自然语言处理领域。近年来,许多基于Transformer的方法被提出用于计算机视觉任务,这也促进了SISR的发展。例如,Chen等人提出了一个预训练的图像处理Transformer用于图像恢复。Liang等人提出了一种直接将Swin Transformer移植到图像恢复任务中的SwinIR,取得了很好的效果。Lu等人提出了一个有效的超分辨率Transformer(ESRT)的SISR,它减少了GPU的内存消耗,通过一个轻量级的Transformer和功能分离策略。然而,所有这些模型都没有充分考虑CNN和Transformer的融合,因此难以在模型大小和性能之间实现最佳平衡。

Lightweight Bimodal Network (LBNet)

Network Architecture

如图1所示,轻量级双峰网络(LBNet)主要由对称CNN,递归Transformer和重建模块组成。具体而言,对称CNN被提出用于局部特征提取和递归Transformer被设计来学习图像的长期依赖性。我们将ILR、ISR和IHR分别定义为输入LR图像、重建SR图像和相应的HR图像。在模型的头部,应用3×3卷积层进行浅层特征提取在这里插入图片描述
对称CNN是LBNet中最重要的组件之一,它由几对参数共享的局部特征融合模块(LFFM)和通道注意模块组成

之后,所有这些特征将被发送到Recursive Transformer进行长期依赖学习在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Symmetric CNN

对称CNN是专门为局部特征提取而设计的,它主要由一些成对的参数共享的局部特征融合模块(LFFM)和通道注意力(CA)模块组成。每两个对称模块的参数共享可以更好地平衡参数和性能。此外,每对参数共享模块将通过频道关注模块进行融合,使得提取的特征可以被充分利用。在这里插入图片描述
如图1所示,对称CNN是双分支网络。浅特征Fsf将首先被发送到顶部分支,并且顶部分支中的每个LFFM的输出将用作向下分支中的对应LFFM的输入的一部分。完整的操作可以定义为在这里插入图片描述
在这里插入图片描述
最后,将所有这些LFFM的输出连接起来,并使用1 × 1卷积层进行特征融合和压缩。因此,在不同层次上提取的最有效的特征将被发送到下一部分,以学习图像的长期依赖性。
Local Feature Fusion Module (LFFM)在这里插入图片描述

LFFM是对称CNN的核心组件。如图2(a)所示,LFFM基本上是DenseBlock的改进版本。与DenseBlock不同的是,(1)我们用FRDAB代替原来的卷积层,使其具有更强的特征提取能力;(2)在每个FRDAB前引入一个1 × 1组卷积层,用于降维;(3)引入局部残差学习,进一步促进信息的传递。LFFM的完整操作可以定义为在这里插入图片描述
Feature Refinement Dual-Attention Block (FRDAB)
在这里插入图片描述
如图2(b)所示,FRDAB是一个双注意力块,专门设计用于特征细化。具体地,多分支结构被设计用于特征提取和利用。在这一部分中,特征将被发送到两个分支,并且每个分支使用不同数量的卷积层来改变感受野的大小以获得不同尺度的特征。c/2表示将产出减半的操作。之后,使用通道注意力来提取通道统计以用于在通道维度中重新加权,并且使用空间注意力来根据特征图的空间上下文关系对像素重新加权。最后,这两个注意力操作的输出被融合的加法运算。在该方法的帮助下,最终获得的特征将显示出对输入图像的平滑区域的更强抑制。

Recursive Transformer

正如我们之前提到的,对称CNN是为局部特征提取而设计的。然而,这远远不足以重建高质量的图像,因为轻量级网络的深度使得难以具有足够大的接收域来获得全局信息。为了解决这个问题,我们引入Transformer来学习图像的长期依赖性,并提出了递归Transformer(RT)。与以前的方法不同,我们引入了递归机制,允许Transformer在不大幅增加GPU内存消耗和模型参数的情况下得到充分训练。如图1所示,RT位于重建模块之前,重建模块由两个Transformer Module(TM)和两个卷积层组成。RT的完整操作可以定义为在这里插入图片描述
至于TM,我们仅使用受ESRT启发的标准Transformer结构的编码部分。在这里插入图片描述
如图3所示,TM主要由两层归一化层组成,一个多头注意力(MHA)和一个多层感知(MLP)。将输入嵌入定义为Fin,输出嵌入Fout可以通过下式获得:在这里插入图片描述
像ESRT一样,我们通过线性层将MHA的输入特征映射投影到Q,K和V中,以减少GPU内存消耗。同时,还采用特征约简策略进一步降低Transformer的内存消耗。根据[Vaswani等人,2017],MHA的每个头必须执行缩放的点积注意,然后连接所有输出并执行线性变换以获得输出。其中缩放的点积注意力可以表示为在这里插入图片描述
这是Transformer中递归机制的第一次尝试。在这种策略的帮助下,我们可以在不增加模型参数和GPU内存消耗的情况下充分训练和利用Transformer。我们将在下一节进一步讨论其有效性。

Conclusions

在本文中,我们提出了一个轻量级双峰网络(LBNet)的SISR通过对称CNN和递归变换。具体来说,我们提出了一个有效的对称CNN局部特征提取和提出了递归变换器学习图像的长期依赖性。在对称CNN中,局部特征融合模块(LFFM)和特征细化双注意块(FRDAB)被设计为确保充分的特征提取和利用。在Recursive Transformer中,引入递归机制来完全训练Transformer,因此Transformer学习的全局信息可以进一步细化特征。总之,LBNet优雅地集成了CNN和Transformer,在模型的性能、大小、执行时间和GPU内存消耗之间实现了更好的平衡。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值