【图像超分辨率重建】——HAN论文阅读笔记

Single Image Super-Resolution via a Holistic Attention Network

基本信息

期刊:ECCV2020

摘要:信息特征在单幅图像的超分辨率处理中起着至关重要的作用。通道注意力已被证明是有效的保留信息丰富的功能,在每一层。然而,通道注意力将每个卷积层视为一个单独的过程错过了不同层之间的相关性。为了解决这个问题,我们提出了一个新的整体注意力网络(HAN),它由一个层的注意力模块(LAM)一个通道的空间注意力模块(CSAM),模型的整体层,通道和位置之间的相互依赖关系。具体而言,所提出的LAM自适应地强调层次特征,考虑层之间的相关性。同时,CSAM学习每个通道所有位置的置信度,以选择性地捕获更多信息特征。大量的实验表明,所提出的HAN表现良好,对国家的最先进的单图像超分辨率方法。

关键词:超分辨率,整体注意,层次注意,通道-空间注意


1.引言

给定低分辨率图像,超分辨率(SR)的目标是生成具有必要的边缘结构和纹理细节的高分辨率(HR)图像。基于CNN的方法的上级重建性能主要来自深度架构和残差学习。具有非常深层的网络具有更大的感受野,并且能够提供强大的能力来学习LR输入和HR对应物之间的复杂映射。由于残差学习可以有效地缓解梯度消失和爆炸问题,因此SR网络的深度将更深。

  • 大多数现有的基于CNN的SR方法忽略了中间层的特征相关性,LR图像的纹理细节在超分辨结果中往往趋于平滑。因此,生成详细的纹理仍然是SR任务中的一个重要问题。虽然通过使用通道注意力获得的结果保留了一些详细信息,但这些基于通道注意力的方法在保留信息性纹理和恢复自然细节方面存在困难,因为它们同等对待不同层的特征图,并导致丢失重建图像中的一些细节部分。

为了解决这些问题,我们提出了一种新的方法,称为整体注意力网络(HAN),是能够探索层次之间的相关性,每一层的通道,每个通道的所有位置。因此,HAN能够刺激CNN的代表能力。具体来说,我们提出了一个层的注意力模块(LAM)和一个通道-空间注意力模块(CSAM)在HAN更强大的特征表达和相关性学习。这两个子注意力模块受到通道注意力的启发,通道注意力对每一层的内部特征进行加权,使网络更加关注信息丰富的特征通道。然而,我们注意到,通道注意力不能加权的功能,从多尺度层。特别是来自浅层的长期信息容易被削弱。虽然浅特征可以通过跳过连接来回收,但是在长跳过连接之后,它们与跨层的深特征被同等对待,因此阻碍了CNN的表示能力。为了解决这个问题,我们考虑探索在层次结构的功能之间的相互关系,并提出了一个层注意力模块(LAM)。

另一方面,通道注意力忽略了每个特征图中不同位置的重要性差异很大。因此,我们还提出了一个通道空间注意力模块(CSAM),以协同提高拟议SR网络的辨别能力。

贡献总结如下:

  • 我们提出了一种新的超分辨率算法命名为整体注意力网络(HAN),提高了超分辨率的特征表示的代表性能力。
  • 我们引入了一个层的注意力模块(LAM)学习的权重分层功能,考虑多尺度层的相关性。同时,提出了通道-空间注意力模型(CSAM),用于学习各层特征的通道依赖性和空间依赖性。
  • 建议的两个注意力模块协同提高SR的结果,通过网络层次结构,通道和位置之间的信息功能。大量的实验表明,我们的算法表现良好,对国家的最先进的SISR方法。。

2.相关工作

许多算法和模型来解决图像SR问题,这可以大致分为两类。一种是传统算法,另一种是基于神经网络的深度学习模型。

深度CNN超分辨率:

  • SRCNN的CNN框架;将稀疏编码的领域知识与深度CNN相结合,并训练级联网络以逐步恢复图像;为了缓解梯度爆炸现象并降低模型的复杂性,使用递归卷积网络;金字塔框架,通过三个子网络逐步生成×8图像;通过删除批归一化层修改了ResNet;

除了上述基于MSE最小化的方法之外,还提出了感知约束以实现更好的视觉质量。

  • 生成对抗网络(GAN)通过引入多任务损失(包括MSE损失,感知损失和对抗损失)来预测高分辨率输出

上述模型要么由于非常深的深度而导致中间特征中的详细纹理的损失,要么产生一些不愉快的伪影或不真实的纹理。与此相反,我们提出了一个整体的注意力网络,由一个层的注意力和通道的空间注意调查不同的层,通道和位置的相互作用

注意力机制:

一种残差通道注意力网络(RCAN),其中残差通道注意力块(RCAB)允许网络专注于信息量更大的信道;提出了通道注意力(CA)空间注意力(SA)模块,以利用特征图的通道间和空间间关系;介绍了SR的残差注意模块,其由残差块和空间信道注意组成,用于学习信道间和信道内相关系;提出了一种二阶信道注意力(SOCA)模块,用于使用二阶特征统计量自适应地细化特征。

然而,这些基于注意力的方法只考虑通道和空间的相关性,而忽略了多尺度层之间的相互依赖性。我们提出了一个层注意力模块(LAM),利用分层之间的非线性特征的相互作用。


3.整体注意力网络(HAN)

层注意力模块(LAM)和通道-空间注意力模块(CSAM)的详细配置

3.1 网络结构

HAN由四个部分组成:特征提取、层关注模块、通道-空间关注模块和最终重构块

特征提取:利用卷积层进行浅层特征提取;主干部分进行深层特征提取;UpSampler和Conv进行上采样和重建;

整体注意力:在通过一组残差组提取层次特征Fi之后,我们进一步进行整体特征加权,包括:分层特征的层注意力,以及RCAN的最后一层的通道-空间注意力。

图像重建:在HAN中引入长跳跃连接以稳定所提出的深度网络的训练,即,子像素上采样块将F0 +FL +FCS作为输入。

损失函数:我们不使用其他复杂的损失函数,例如对抗性损失和感知损失。我们表明,简单地使用原始图像强度损失L(Θ)已经可以实现竞争性结果。

3.2 层注意力模块

虽然密集连接和跳过连接允许将浅层信息旁路到深层,但这些操作并不利用不同层之间的相互依赖性。相比之下,我们将每个层的特征图视为对特定类的响应,并且来自不同层的响应彼此相关。通过获得不同深度的特征之间的依赖关系,网络可以为不同深度的特征分配不同的注意力权重,并自动提高提取特征的表示能力。因此,我们提出了一种创新的LAM,它可以学习不同深度的特征之间的关系,从而自动提高特征表示能力

 3.3 通道-空间注意力模块

现有的空间注意机制主要关注特征的尺度维度,很少考虑通道维度信息,而最近的通道注意机制忽略了尺度信息。为了解决这个问题,我们提出了一种新的通道-空间注意力机制(CSAM),包含来自所有维度的特征图的响应

注意,尽管我们可以对从RCAN提取的所有特征组FG执行CSAM,但是我们仅调制FN的最后一个特征组以在准确度和速度之间进行权衡。

给定最后一层特征映射FN,与3D内核进行3D卷积,得到三组通道-空间注意力图Wcsa,然后我们使用注意力图Wcsa和输入特征FN执行逐元素乘法。最后,将加权结果乘以比例因子β,然后将输入特征FN相加以获得加权特征FCS = βσ(Wcsa)

比例因子β被初始化为0,并且在随后的迭代中逐渐改进。因此,FCS是所有通道空间位置特征以及原始特征的加权和。


 4.实验

4.1 实验配置

训练集:DIV2K

测试集:Set5 , Set14 , B100 ,Urban100 , and Manga109 

退化数据通过双三次降解模型Blur-downscale退化模型获得。在之后,首先将所提出的HAN的重建RGB结果转换到YCbCr空间,然后我们在实验中仅考虑亮度通道来计算PSNR和SSIM。

实施细节:批量大小为16,补丁大小为64*64,采用ADAM优化器,使用β1和β2的默认值,分别为0.9和0.999,我们设置学习率为10−8,不使用任何正则化操作,例如批量归一化和组归一化除了随机旋转和平移之外,我们在训练中不应用其他数据增强方法,们在网络中使用N = 10个残差组

4.2 有关LAM和CSAM的消融实验

所提出的LAM和CSAM确保所提出的SR方法生成分层、通道和位置之间的特征相关性。为了验证这两种注意力机制的性能,我们在表1中比较了不使用LAM和CSAM的方法,其中我们在Manga109数据集上进行了实验,放大因子为×4。

定量评价。与基线方法(RCAN)相比,该方法与所提出的网络相同,除了没有这两个模块LAM和CSAM。CSAM在PSNR方面实现了高达0.06 dB的更好结果,而LAM在测试数据集上提升了0.16 dB。此外,使用LAM和CSAM两者的改进是显著的,因为所提出的算法改进了0.2dB,这证明了所提出的层注意和信道空间注意块的有效性。

 4.3 残差群个数的消融研究

我们进行了一项消融研究,将不同数量的RG馈送到拟议的LAM。具体来说,我们分别将三个,六个和十个RG应用于LAM,并在五个标准数据集上评估我们的模型。如表2所示,我们将我们的三个模型与RCAN进行比较,尽管使用较少的RG,但我们的算法仍然生成比RCAN的基线更高的PSNR值。该消融研究证明了所提出的LAM的有效性。

 4.4 CSAM数目的消融实验

 在本文中,通道-空间注意模块(CSAM)可以提取强大的表示来描述连续通道中的通道间和通道内的信息。我们进行了烧蚀研究,使用不同数量的CSAM。我们在RG中使用一个、三个、五个和十个CSAM。如表5所示,随着CSAM的增加,测试数据集上的PSNR值也在增加。该消融研究证明了所提出的CSAM的有效性。

 4.5 双三次(BI)降解模型的结果

我们将所提出的算法与11种最先进的方法进行比较:SRCNN ,FSRCNN , VDSR , LapSRN ,MemNet , SRMDNF , D-DBPN ,RDN , EDSR , SRFBN and SAN .

定量分析:表3显示了2×、3×、4×和8× SR定量结果的比较。与现有的方法相比,我们的HAN+在重建的测试数据集的所有尺度上表现最好。不使用自集成,我们的网络HAN仍然获得了很大的增益相比,最近的SR方法。特别是,我们的模型是比SAN,也使用相同的骨干网络的RCAN,并有更多的计算密集型的注意力模块。具体来说,当我们比较Set5数据集上×8尺度的重建结果时,所提出的HAN在PSNR方面比竞争对手SAN提高了0.11 dB。

 视觉效果定性分析:我们还在图4中显示了4× SR的Urban100数据集上各种方法的视觉比较。如图所示,大多数比较的SR网络不能准确地恢复建筑物的网格,并且遭受令人不快的模糊伪像。相比之下,所提出的HAN获得更清晰的细节,并重建更清晰的高频纹理。

 4.6 模糊降尺度退化(BD)模型的结果

 定量分析:我们进一步比较了具有模糊缩小退化模型的图像上的SR结果。我们将所提出的方法与九种最先进的超分辨率方法进行比较:SPMSR,SRCNN ,FSRCNN ,VDSR ,IRCNN ,SRMD,RDN ,RCAN ,SRFBN 和SAN 。

 视觉效果定性分析:大多数比较的SR网络不能准确地恢复建筑物的网格,并且遭受令人不快的模糊伪像。相比之下,所提出的HAN获得更清晰的细节,并重建更清晰的高频纹理。


5 结论

在本文中,我们提出了一个整体的注意力网络单图像超分辨率,自适应学习不同的深度,通道和位置之间的全局依赖关系,使用自注意机制。具体地,层注意模块捕获分层层之间的长距离依赖性。同时,通道-空间注意模块将通道和上下文信息结合在每个层中。这两个注意力模块协作地应用于多层次特征,然后可以捕获更多信息的特征。在基准数据集上的大量实验结果表明,该模型在准确性和视觉质量方面与最先进的SR算法相比表现良好。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
深度学习是一种机器学习方法,可以用于图像识别等任务。深度学习模型通常由多个层组成,其中卷积层和池化层是两个重要的组成部分。 卷积层是深度学习模型的核心层之一。它通过使用卷积核对输入图像进行卷积操作,提取图像的特征。卷积操作是一种有效的操作,可以在不同位置共享参数,使得模型可以捕捉到图像中的局部模式。通过使用多个卷积核,卷积层可以学习到不同类型的特征,如边缘、纹理等。在卷积操作后,可以加上偏置项,并通过激活函数对特征进行非线性变换。 池化层是为了减小特征图的尺寸而引入的层。它通常与卷积层交替使用,在特征图上进行降采样操作。池化层可以减小模型的参数量,同时也可以保留图像的主要特征。其中最常见的池化操作是最大池化和平均池化,分别选择池化窗口中的最大值或平均值作为输出。池化操作还有助于提高模型的鲁棒性,减少对输入的微小变化的敏感度。 激活函数指的是在每个神经元上执行的非线性操作,以增加模型的表达能力。常见的激活函数有ReLU、sigmoid和tanh等。激活函数可以增加模型的非线性能力,使得模型可以更好地拟合复杂的数据分布。 综上所述,深度学习图像识别中的卷积层和池化层都是非常重要的组成部分。卷积层可以提取图像的特征,而池化层可以对特征图进行降采样,同时保留主要特征。激活函数可以增加模型的表达能力,使模型可以更好地适应不同类型的图像数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值