A very lightweight and efficient image super-resolution network

A very lightweight and efficient image super-resolution network   非常轻量级和高效的图像超分辨率网络

1、摘要

深度卷积神经网络显著提高了单图像超分辨率 (SISR) 的性能。通常,较大的网络(即更深和更宽)具有更好的性能。然而,更大的网络需要更高的计算和存储成本,这限制了它们在资源受限设备上的应用。非常需要参数更少、计算工作量更小的轻量级 SISR 网络。关键挑战是在模型复杂性和性能之间取得更好的平衡。在本文中,我们提出了一种非常轻量级和高效的SISR网络。我们的主要贡献包括:(1)提出频率分组融合块(FGFB),可以更好地融合高/低频特征信息;(2)提出一种多向注意力块(MWAB),可以利用特征信息的多种不同线索;(3)提出轻量级残差级连块(LRCB),可以结合残差连接和信道级联的优点;(4)提出一种用于图像超分辨率的轻量级卷积块(LConv),可以显著减少参数数量;(5)提出一种渐进式交互群卷积(PIGC),比传统的群卷积更有效。大量的实验结果表明,我们的方法明显优于目前可用的其他最先进的方法,在模型复杂性和性能之间取得了更好的平衡。

2、引言

单图像超分辨率(SISR)(Freeman,Pasztor和Carmichael,2000)是计算机视觉领域的经典任务,旨在从相应的低分辨率(LR)对应物中恢复高分辨率(HR)图像。它具有广泛的应用,例如视频监控(Zou & Yuen,2012),医学诊断(Shi等人,2013)和遥感成像(Thornton,Atkinson,&Holland,2006)。

卷积神经网络(CNN)(Dong, Loy, He, & Tang, 2014)显著提高了SISR的性能,并主导了当前对SISR的研究。然而,基于CNN的SISR方法在很大程度上取决于网络的大小,即网络的深度(层数)和宽度(通道数)。较大的SISR网络更具表现力,通常具有更好的性能。例如,EDSR(Lim,Son,Kim,no,&Mu Lee,2017)有65个卷积层和43个M参数,RCAN(Zhang,Li等人,2018)有400多个卷积层和16个M参数。虽然EDSR和RCAN等方法具有良好的性能,但它们需要很高的计算和内存成本,并且难以应用于资源有限的设备(例如移动电话)。轻量级SISR网络(通常被认为具有小于1 M的参数)是非常可取的。当前的SISR方法,特别是轻量级的SISR方法,面临着一个共同的挑战:由于纹理等高频信息的丢失,重建的超分辨率(SR)图像经常遭受模糊和失真(Ahn,Kang,&Sohn,2018)。

当前SISR方法使用的网络架构主要包括残差连接(Lim等人,2017),密集连接(Zhang,Tian,Kong,Zhong&Fu,2018)和通道注意机制(Zhang,Li等人,2018),它们主要删除了流行的批量归一化和池化层(Huang等人,2021,Lim等人,2017)中的分类网络(He, Zhang, Ren, & Sun, 2016),以减少特征信息的丢失,提高特征信息的利用率和表达能力。常见的密集连接方案(Zhang, Tian et al., 2018),如图1(a)所示。提取的层次特征连接在一起。Qiu, Wang, Tao, and Cheng (2019) 表明,SISR网络的浅层特征包含更多的低频信息,深层特征包含更多的高频信息。低频信息由更简单的结构和纹理组成,其中需要更简单的功能来恢复它们;高频信息由复杂的结构和纹理组成,需要更复杂的恢复功能。残差和密集连接并不是将浅层信息传递到深层的最佳方式,因为深层容易过度拟合低频信息,导致恢复图像失真。最近,Luo等人(2020)提出了一种新的向后顺序连接方案,如图1(b)所示。采用1×1卷积层将每个FEB输出的特征通道数减少一半,降维特征从后到前逐渐串联,可以更好地还原SR图像中的高频信息。

在本文中,我们提出了一种非常轻量级和高效的图像超分辨率网络(VLESR)。我们的核心贡献是,主要受到Luo等人(2020)工作的启发,我们建议将高频/低频特征成对分组和融合,以更好地利用特征信息。低频和高频之间差异最大的特征构成第一组,差异次高的特征形成第二组,依此类推。然后,从频率差最小的特征组开始,逐渐融合各组的特征,直到频率差最大的特征组。此外,我们提出了一种多路注意力块(MWAB)来挖掘特征信息的多个不同线索。为了使我们的模型足够轻量级和有效,我们提出了轻量级残差级联块(LRCB),轻量级卷积块(LConv)和渐进式交互群卷积(PIGC)。我们工作的贡献可归纳如下:

提出一种非常轻量级和高效的图像超分辨率网络(VLESR),它在复杂性和性能之间取得了更好的平衡,并且优于其他最先进的方法(请参阅图2)。

提出一种分组融合块(FGFB),可以更好地融合高频和低频特征信息。

提出一种多向注意力块(MWAB),可以利用特征信息的多种不同线索。

提出一种轻量级残差级联块(LRCB),它可以结合残差连接和信道级联的优点。

提出一种用于图像超分辨率的轻量级卷积块(LConv),可以显著减少参数数量。

提出渐进式交互式群卷积(PIGC),比传统的群卷积更有效。

本文的其余部分组织如下。在第2节中,我们回顾了相关工作。第 3 节描述了我们的方法。第4节说明了详细的实验结果以及与其他最新方法的比较。第5节结束了本文。为便于阅读,表1总结了本文的主要缩写。

3、相关

3.1. 基于CNN的轻量级SISR方法

Dong等人(2014)提出了第一个基于CNN的SISR方法,称为SRCNN。SRCNN仅包含三个卷积层,端到端地学习LR和HR图像之间的非线性映射,并优于传统的SISR方法。Kim,Kwon Lee和Mu Lee(2016a)提出了VDSR,它使用跳过连接来学习残差信息,并将卷积层的数量增加到20个,这进一步提高了SISR的性能。一般来说,更深(更多的卷积层)和更宽(更多的特征通道)网络具有更大的表达能力,可以提高SISR的性能。Lim等人提出的EDSR(Lim等人,2017)有65个卷积层。Zhang, Li et al. (2018) 提出的 RCAN 具有 400 多个卷积层。较大的网络需要更高的计算和内存成本,并且难以应用于资源受限的设备(例如手机)。非常需要轻量级 SISR 网络(具有低计算和内存要求)。Kim等人提出的DRCN(Kim,Kwon Lee和Mu Lee,2016b)将递归结构引入SISR任务,其中卷积层的参数是共享的。递归结构可以在不增加参数数量的情况下构建更深的网络,但不能减少计算工作量。 Ahn等人提出的CARN(Ahn等人,2018)是一个级联残差网络,它使用组卷积来减少参数数量和计算工作量。 Hui等人提出的IMDN(Hui, Gao, Yang, & Wang, 2019)使用信息蒸馏(拆分和聚合操作)来提取分层特征,以减少参数数量和计算工作量。刘等人提出的RFDN(Liu, Tang & Wu, 2020)进一步改进了IMDN的信道拆分,更加轻量级有效。最近,Zhao, Kong, He, Qiao, and Dong (2020) 提出了一种非常轻量级的模型,称为 PAN。PAN使用轻量级自校准卷积(Liu,Hou等人,2020)作为基本构建块,并且还使用1×1卷积来构建非常轻量级的像素注意力(PA)。在本文中,我们设计了一种新的轻量级高效构建块,可以显着减少参数数量和计算工作量。

3.2. 功能融合

由于特征信息的相关性和冗余性,如何融合特征信息对于特征传播和表现力非常重要。目前,SISR网络架构中最广泛使用的特征融合方法是残差连接(Lim等人,2017),密集连接(Zhang,Tian等人,2018)和特征通道连接(Tong,Li,Liu,&Gao,2017)。Li, Fang, Mei, and Zhang(2018)提出的MSRN将每个多尺度残差块(MSRB)密集连接起来,连接每个MSRB的输出特征,然后使用1×1卷积层融合级联特征。安瓦尔等人提出的DRLN(安瓦尔和巴恩斯,2022)的基本构建块是DRLM,它结合了残差连接,密集连接和特征通道串联。A的基本构建块2Wang等人提出的F(Wang等人,2020)是专注辅助特征块。该 A2F块密集连接,并融合每个A中的特征2F块,结合残差连接,特征通道连接,1×1卷积层和注意力机制。最近,由Luo等人提出的LatticeNet(Luo等人,2020)采用了一种新的后向特征融合方法:将高频特征与低频特征向后顺序融合,提高了SR图像恢复的质量。受LatticeNet的启发,构建模块输出的高/低频特征被分组并成对融合,以进一步提高SR图像的恢复质量。

3.3. 注意力机制

注意机制(Itti,Koch,&Niebur,1998)通常是指人类视觉系统自动聚焦在突出区域的能力。CNN网络架构中的注意力机制类似,是指能够专注于输入的特定部分,可以提高特征的利用率和表现力。Hu, Shen, and Sun (2020) 提出了一个挤压和激励 (SE) 网络,其中基本构建块是 SE 块。SE 模块使用全局平均池化 (GAP) 将每个输入通道压缩到通道描述符(常量)中,然后将其馈送到两个密集层中,为每个输入通道生成缩放因子(权重),以显式建模通道之间的相互依赖关系。张李等人(2018)提出的RCAN将胡等人(2020的通道注意力机制引入图像SR中。Woo等人提出的CBAM(Woo, Park, Lee, & Kweon, 2018)使用GAP和全局最大池化(GMP)计算信道注意力图。Woo等人认为,GMP编码可以最突出的部分来弥补GAP编码的全球统计数据。Fu等人(2019)提出的DANet包括位置注意力分支和通道注意力分支。前者通过所有位置的特征加权和选择性地聚合每个位置的特征,而后者则通过整合所有通道图之间的关联特征来选择性地强调相互依赖的通道图。我们主要受到Zhang, Li et al. (2018)和Woo et al. (2018)的启发,提出了一种多向注意力块(MWAB),可以更好地结合不同线索的特征提高特征表现力。

 

4、方法

4.1方法框架


 

4.2. 残余注意力阻滞

 

每个残差注意块(RAB)包含三个轻量级残差串联块(LRCB),一个多路注意块(MWAB)和一个跳过连接,如图3(b)所示。

轻量级残差串联块 (LRCB)。轻量残差级联块(LRCB)由两部分组成,如图3(c)所示。第一部分包含两个轻量级卷积块(LConv),紧跟在每个LConv之后的两个ReLU(Agarap,2018)非线性激活层,以及一个用于学习局部残差特征信息的跳过连接。将学习到的残差特征与原始特征连接起来,以增强特征信息的利用和传播。在第二部分中,使用 1 × 1 卷积层来压缩级联特征。

 

 4.3轻量级卷积块 (LConv)

Zhang,Zhou,Lin和Sun(2018)为高级视觉任务设计了一个非常轻量级的构建块,称为ShuffleNet单元。基于ShuffleNet单元,我们为SISR任务设计了一个非常轻量级的构建块,称为轻量级卷积块(LConv)。我们的重要改进是双重的:(1)从 ShuffleNet单元中删除批量归一化层,这已被证明会降低SISR的准确性(Lim等人,2017);(2)在ShuffleNet单元中,将第一和第二个1×1群卷积分别替换为渐进式交互群卷积(PIGC)和1×1点卷积,既具有群卷积的优点,又可以增强特征通道之间的融合和协作。LConv 的结构如图 5(a) 所示,它由 PIGC、通道洗牌层、3 × 3 深度卷积和 1 × 1 点卷积组成。LConv 中 PIGC 的结构如图 5(b) 所示。

渐进式交互式组卷积 (PIGC)。渐进式交互群卷积(PIGC)是对群卷积的改进,具有群卷积

 

4.4. 频率分组融合块 (FGFB)

频率分组融合块(FGFB)将高/低频特征成对分组和融合,以更好地恢复HR特征信息,如图6所示。高/低频差最大的特征分为第一组,高/低频差次大的特征分为第二组,依此类推。然后,从频率差最小的特征组开始,逐渐融合各组的特征,直到频率差最大的特征组。如果 RAB 的数量为奇数,则仅使用中间 RAB 的输出特征作为最后一个特征组。然后,通过分组融合的输出特征被馈送到MWAB进行进一步融合。当 RAB 的数量为 4 时,只有两个特征组。特

 

 5、实验

5.1. 数据集

为了与其他最先进的方法进行公平比较,使用通用的DIV2K数据集(Timofte,Agustsson,Van Gool,Yang&Zhang,2017)作为训练和验证数据集。DIV2K 由 800 张训练图像 (001–800) 和 100 张验证图像 (801–900) 组成。十张图像(801-810)用于验证,标记为DIV2K-10。对原始HR训练图像进行双立方下采样,得到配对的LR训练图像。与其他方法类似,我们也随机执行了90°,180°,270°旋转和水平翻转以增强训练图像。我们还使用了五个标准测试数据集:Set5(Bevilacqua,Roumy,Guillemot和line Alberi Morel,2012),Set14(Zeyde,Elad和Protter,2010),B100(Martin,Fowlkes,Tal和Malik,2001),Urban100(Huang,Singh和Ahuja,2015)和Manga109(Matsui等人,2017)。

5.2. 设置

训练小批量大小设置为 16,输出 HR 图像补丁的大小设置为 192 × 192。ADAM 优化器(Kingma & Ba,2014)与�1 = 0.9,�2 = 0.999,并且ɛɛ=10−8.初始学习率设置为 3 × 10−3每 200 个时期减半。训练在 1000 个时期终止。这�1使用了损失函数。馈送到每个LRCB的特征通道数量为64个。DFEB的RAB数量为4个。MWAB中每个分支的两个1×1卷积层分别压缩和扩展了16倍的特征通道。该模型是使用PyTorch(Paszke等人,2017)框架和NVIDIA 2080Ti GPU实现的。

5.3. 评估

与以前的方法一样,在YCbCr空间的亮度(Y)通道上评估了峰值信噪比(PSNR)和结构相似指数(SSIM)指标(Wang,Bovik,Sheikh,Simoncelli等人,2004)(Zhang,Li等人,2018)。我们还评估了学习的感知图像补丁相似性(LPIPS)(Zhang,Isola 等人,2018 年)指标,该指标被认为与人类感知更一致,值越低表示结果越好。

5.4. 消融分析

为了评估LRCB,MWAB和FGFB的效果,我们设计了八个比较实验。为了进行比较,我们首先考虑了一个简化的LRCB:(1)不包含残差连接,通道串联和1×1卷积;(2)LConv中的PIGC和1×1点卷积被ShuffleNet中的1×1群卷积所取代(Zhang,Zhou等人,2018)。LRCB_S VLESR删除了RAB中的FGFB,即MWAB,并用称为基线的LRCB_S替换了RAB中的LRCB。基线的不同模型变体包括用LRCB替换LRCB_S,以及包括FGFB或MWAB,或两者兼而有之。的 PSNR×4 SR 显示了 DIV2K-10 验证数据集上不同模型的 SR,如表 2 所示。表2的第2列显示了基线的PSNR结果,最右边的列显示了VLESR的PSNR结果。可以看出,基线的PSNR仅为29.258 dB,当将LRCB,MWAB或FGFB添加到基线中时,PSNR变得更好(表3的第5至2列)。当将LRCB,MWAB和FGFB中的任何两个添加到基线(表6中的第8至第2列)时,结果可以进一步改善。当基线同时包含LRCB、MWAB和FGFB(表29最右边的列)时,获得最佳PSNR(440.2 dB),比基线的PSNR高0.182 dB。

 

 

 

 

 

 

 

4.7. MWAB 实验

我们进行了三个比较实验。在第一个实验中,VLESR的RAB和FGFB都没有包含注意力机制,该模型被称为MWAB_0;在第二个实验中,MWAB被RCAN中的通道注意力块所取代(Zhang,Li et al.,2018),该模型称为MWAB_1;在第三个实验中,MWAB同时用于RAB和FGFB,该模型称为MWAB(即VLESR)。PSNR结果×4 SR 显示了 DIV2K-10 验证数据集上不同模型的 SR,如表 7 所示。可以看出,MWAB是有效的,并且比流行的渠道关注更好(Zhang,Li et al.,2018)。

如图 4 所示,MWAB 有三个分支来计算注意力权重,以挖掘特征的不同线索。从上到下,它们被称为分支 1、分支 2 和分支 3。分支 1 通过 GAP 计算通道注意力权重(Zhang, Li 等人,2018 年),分支 2 通过 GMP 计算通道注意力权重(Woo 等人,2018 年),分支 3 类似于通道注意力和空间注意力Fu 等人,2019 年)。为了验证每个MWAB分支的效果,我们对MWAB进行了四个案例的实验:(1)仅使用分支1;(2) 同时使用分支 1 和分支 2;(3) 同时使用分支 1 和分支 3;(4)同时使用所有三个分支。PSNR结果×DIV4K-2验证数据集上的10 SR如表8所示。可以看出,每个分支都可以利用不同的特征线索来产生积极效果,并且同时使用所有三个分支获得了最佳结果。

 

 

 

 

 

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值