NTIRE2022双目超分赛道冠军方案解读——NAFSSR

NTIRE2022双目超分赛道冠军方案解读——NAFSSR


0. 简介

NTIRE 的全称为New Trends in Image Restoration and Enhancement Challenges,即“图像复原和增强挑战中的新趋势”,是CVPR(IEEE Conference on Computer Vision and Pattern Recognition)举办的极具影响力的计算机视觉底层任务比赛,主要涉及的研究方向有:图像超分辨率、图像去噪、去模糊、去摩尔纹、重建和去雾等。

其中在2022年,CVPR开展的NTIRE相关挑战有:

  1. 光谱恢复(spectral recovery);
  2. 光谱去马赛克(spectral demosaicing);
  3. 感知图像质量评估(perceptual image quality assessment);
  4. 补全(inpainting);
  5. 夜间摄影渲染(night photography rendering);
  6. 高效超分辨率(efficient super-resolution);
  7. 学习超分辨率空间(learning the super-resolution space);
  8. 压缩视频的超分辨率和视频增强(super-resolution and quality enhancement of compression video);
  9. 高范围动态(high dynamic range);
  10. 双目超分辨率(stereo super-resolution);
  11. 连拍超分辨率(burst super resolution)。

同时,以上的这些挑战也蕴含着当前的一些研究难点及挑战,需要研究学者们集思广益,提出针对提升任务性能的想法,为共同解决近年来的难题贡献出一份力量。

本篇文章着重于NTIRE 2022双目超分辨率(stereo super-resolution)挑战赛的冠军方案的解读,总结报告中能够提升任务的tricks,以期给相关的科研任务和竞赛一些启发。NTIRE 2022双目超分辨率(stereo super-resolution)挑战赛的目标是:(i) 衡量并推动 SR 的最新技术; (ii) 比较不同的解决方案。

比赛提供的数据集是Flickr1024数据集。Flickr1024数据集包含1024对RGB图像,其中训练集有800对,验证集有112对,测试集有112对。Flickr1024数据集中的图像都是手工采集的高质量图像,有着多样的内容和丰富的细节。


1. 摘要

双目图像超分旨在使用双目系统提供的互补信息来提高超分图像的质量。为了实现这个目标,不少方法集中于精心设计网络模块,损失函数等来利用另一个视角的信息。但是这样的设计增加了系统的复杂度,使得研究者难以评估新的想法,并且和其他方法作比较。

针对这个问题,作者在NAFNet(一个强大而简单的图像复原模型)能够提取单视角特征基础上,添加了交叉视角注意力来融合双目场景中视角间的特征,这个模型记作NAFSSR

为了充分挖掘NAFSSR的性能,作者提出了一系列训练和测试相关的策略。大量实验展示了NAFSSR的有效性,尤其是在KITTI2012,KITTI2015,Middlebury和Flickr1024数据集上,NAFSSR超过了当前先进的方法(state-of-the-art)。更重要的是,NAFSSR获得了NTIRE 2022双目超分辨率(stereo super-resolution)挑战赛的冠军。


2. 引言

双目超分旨在从成对的低分辨率左右图像中重建出高分辨率的细节。对于这个目标来说,单视角的上下文信息(intra-view information)左右图像之间的信息(cross-view information) 是尤为关键的。

一方面,近期双目超分的工作主要集中于精心设计新颖的网络结构和损失函数,从而有效地利用另一个视角的额外信息,因为双目系统提供的交叉视角信息能够提高图像的质量。另一方面,随着深度学习技术的发展,单幅图像复原取得了显著的进步,比如SwinIRNAFNet。但是单幅图像复原技术对于双目图像超分这个任务来说,并不是最优的,因为它不能利用交叉视角信息。

NAFNet能够以低的系统复杂度在图像复原任务上获得较好的性能,受到NAFNet的启发,通过在NAFNet上添加简单的交叉视角注意力模块,作者提出了一个新的用于双目图像超分的baseline模型,NAFSSR。NAFSSR能够充分的利用视角内的信息和交叉视角的信息,实现很好的双目超分效果。特别地,作者通过堆叠NAFNet块(称作NAFBlocks),并以权重共享的方式提取两个视图各自的视角内特征。此外,作者提出了双目交叉注意力模块(stereo cross-attention module, SCAM)来关注并融合左右视图间的特征。SCAM首先计算从左(视图)到右(视图)和从右到左的双向交叉注意力,然后融合交叉视图特征视图内特征。相比于Transformer关注一张图像所有位置的注意力,SCAM只关注沿着水平极线(horizontal epipolar line)对应的特征

尽管NAFSSR有强大的表达能力,但是如果训练数据过少,也会存在过拟合的问题。为了解决这个问题,作者在训练阶段使用了随机深度(stochastic depth)作为正则化的手段,使用了RGB通道混洗(channel shuffle)作为数据增强的手段。此外,作者留意到在双目超分任务中也会碰到TLSC中提到的训练/测试不一致的问题,于是作者在测试阶段采用TLSC策略缓解这个不一致的问题。如下图所示,作者提出的NAFSSR families比现有的方法,在性能和参数上能够达到更好的权衡(trade-off)。

作者的贡献总结如下:

  • 首先,作者提出了NAFSSR,继承了NAFNet既简单又性能好的优势。同时提出了双目交叉注意力模块,能够利用双目超分任务的性质(使用交叉视图信息)来提升网络性能;
  • 基于NAFSSR,作者设计了一系列训练/测试策略(随机深度,RGB通道混洗,TLSC),解决了阻碍双目超分任务性能提升的障碍。
  • 大量实验表明论文所提方法的有效性,凭借NAFSSR,作者们获得了NTIRE 2022双目超分辨率(stereo super-resolution)挑战赛的冠军。

3. 相关工作

相关工作中回顾了一些主流的单幅图像超分(Single Image Super-resolution)双目图像超分(Stereo Image Super-resolution)训练/测试策略(Training and Testing Strategies) 领域的方法。

3.1 单幅图像超分

  • Dong等人提出了第一个基于CNN的超分方法——SRCNN。
  • 为了提升模型性能,不少工作都增加了模型的深度和宽度,比如使用残差和密集连接,引入通道/空间注意力等。
  • SwinIR提出了基于Swin Transformer的图像复原方法,在单幅图像超分中取得了当前先进的性能。
  • 在这篇论文中,作者扩展了NAFNet,将一个在单幅图像复原任务上取得良好性能的方法,应用在了双目图像超分任务。

3.2 双目图像超分

双目图像超分任务旨在从低分辨率的左右视图对中重构高分辨率的细节。

  • StereoSR通过联合训练分别用于亮度和色度的两个级联子网络,来学习连续视差偏移高分辨率图像之间的映射。
  • PASSRnet引入了视差注意力机制(parallax-attention mechanism),该注意力机制沿着极线有着全局的感受野,从而解决了不同双目图像有大视差变化的问题。
  • Ying等人提出了双目注意力模块(stereo attention module, SAM),从而使得预训练的单幅图像超分网络能够用于双目图像超分
  • StereoIRN引入了两个视差注意力损失,并使用一个预训练的视差流网络来对齐两个视角的特征。
  • Song等人提出了自注意力机制视差注意力机制同时聚合从该视角和另一视角双目图像的信息。
  • iPASSR提出了 对称双向视差注意力(bi-directional parallax attention module, biPAM) 和内联遮挡处理方案(inline occlusion handling scheme)来利用双目图像超分的对称线索。
  • CVCnet全局和局部的角度聚合了交叉视角的空间特征。
  • SSRDE-FNet在一个统一的框架中同时完成了双目超分视差估计的任务,并且这两个任务以相互促进的方式进行交互。
  • 作者设计了一个简单的双目交叉注意力模块(SCAM),将单幅图像复原网络扩展到了双目图像超分。相比于SAM(使用在额外的数据集上预训练的单幅图像超分网络,并在双目数据集上使用多种损失微调),作者提出的NAFSSR,直接在双目图像数据集上使用L1损失,从头开始训练

3.3 训练/测试策略

正则化技术(如权重衰减、dropout和随机深度)广泛地用于高级视觉任务,从而提升模型性能。但是在图像超分领域,正则化技术是否能够有效提升模型性能,还没有一致认同的观点。比如,Lin等人发现RCAN由于欠拟合限制了模型的性能;但是Kong等人展示了合理地使用dropout,可以防止超分网络在特定退化中陷入过拟合。在本文中,作者发现所提出的网络(尤其是最小的网络)会在双目超分训练数据中发生过拟合,于是作者使用随机深度提高模型的泛化性。


4. 方法

4.1 网络框架

基于NAFNet的双目超分网络NAFSSR如下图所示。NAFSSR以低分辨率的双目图像对为输入,并同时超分左右视角的图像。由NAFBlock堆叠的两个权重共享网络各自提取左右图像的视图内特征。使用双目交叉注意力模块(SCAMs)融合左右图像间的特征。NAFSSR可以分为三个部分:

  • 视图内特征提取
  • 交叉视图特征融合
  • 图像重构

视图内特征提取和重构。可以看作是上下两个分支的任意一个(实际上就是NAFNet),首先使用一个 3 × 3 3\times3 3×3卷积从图像空间映射到更高维的特征空间。其次,N个NAFBlocks用于深层的视图内特征提取。完成特征提取后,一个 3 × 3 3\times3 3×3卷积和亚像素卷积层(pixel shuffle layer)用于对特征进行上采样(上采样因子为 s s s)。为了减轻特征学习的负担,使用了全局残差学习只预测低分图的双线性上采样结果和真实(ground-truth)高分辨率图像的残差

交叉视角特征融合。为了使得交叉视角的信息能够交互(这部分是双目超分所特有的),作者将SCAM插在NAFBlock的后面。SCAM将之前的NAFBlocks产生的双目特征作为输入,并进行双向的交叉视角交互,输出与输入视图内特征融合的交互特征。SCAM的细节如下图所示。

4.2 训练策略

在双目超分的任务里,普遍的操作都是从一个高分辨率的图像中裁剪小图块进行训练。这些小图块会通过随机水平和竖直翻转用于数据增强。作者还引入了通道混洗(Channel Shuffle)的操作,即随机打乱输入图像的RGB通道用于颜色的增强。此外,作者还使用了随机深度作为正则化手段。损失函数方面,作者为了简便,直接使用的超分双目图像和真实双目图像的逐像素L1距离用于监督训练。损失函数如下:

L = ∣ ∣ I L S R − I L H R ∣ ∣ 1 + ∣ ∣ I R S R − I R H R ∣ ∣ 1 L=||I^{SR}_L-I^{HR}_L||_1+||I^{SR}_R-I^{HR}_R||_1 L=∣∣ILSRILHR1+∣∣IRSRIRHR1

4.3 训练-测试的不一致

Chu等发现在推理时基于图像的特征分布,和训练时基于图块的特征分布不一致,而这种不一致会对去模糊,去噪,去雨,去雾的模型性能有损害。以双目图像超分任务为例,用于训练的输入和用于测试的输入有很大的不一样(主要体现在输入尺寸上),在Flickr1024数据集上,每个用于训练的图块的大小( 30 × 90 30\times90 30×90)是用于测试的低分辨率图尺寸( 300 × 200 300\times200 300×200)的 4.5 % 4.5\% 4.5%。这就促使作者去测试一下作者网络中使用的通道注意力可能存在的训练-测试不一致的问题。

在通道注意力(channel attention, CA)中,给定输入 X X X,我们首先使用全局平均池化(pool)来聚合全局的空间信息,其次重新分配池化后的信息给输入的特征。操作步骤表示如下:

C A ( X ) = X ∗ W p o o l ( X ) CA(X)=X*Wpool(X) CA(X)=XWpool(X)

其中 W W W代表可学习的矩阵, ∗ * 是逐通道的卷积操作。作者在上述公式的 C A CA CA操作中采用TLSC策略,即将pool操作从推理时的全局平局池化操作转为局部平均池化操作,使得基于局部空间区域提取的特征表示能够与训练阶段的一致。根据TLSC的原文,池化的局部尺寸简单的设为训练图块尺寸的1.5倍


5. 实验

5.1 实验设置和细节

训练集:Flickr1024的800对双目图像训练集。

测试集:Flickr1024的112对双目图像验证集。

评估指标:RGB通道的PSNR和SSIM。需要求左视图和右视图的指标均值,即 ( L e f t + R i g h t ) / 2 (Left+Right)/2 (Left+Right)/2

模型架构:NAFSSR-T(Tiny),NAFSSR-S(Small),NAFSSR-B(Base),NAFSSR-L(Large),在推理阶段使用了TLSC策略。

数据增强策略:随机水平和竖直翻转,Channel Shuffle。

优化器:AdamW, β 1 = 0.9 \beta_1=0.9 β1=0.9 β 2 = 0.9 \beta_2=0.9 β2=0.9,权重衰减系数为0。

训练策略:初始学习率设为 3 × 1 0 − 3 3\times10^{-3} 3×103,采用余弦退火策略减少至 1 × 1 0 − 7 1\times10^{-7} 1×107。除非有特殊说明,否则模型都是在 40 × 100 40\times100 40×100大小的图块上训练 1 × 1 0 5 1\times10^5 1×105次,batch size为32。为了克服过拟合的问题,作者分别对NAFSSR-S、NAFSSR-B、NAFSSR-L采用概率为0.1、0.2、0.3的随机深度。由于最轻量的模型NAFSSR-T遇到的问题是欠拟合(因为模型参数量少),而不是过拟合,因此训练NAFSSR-T时没有采用随机深度的策略。

5.2 模型复杂度

下表展示了不同大小的NAFSSR所对应的通道数、堆叠块数和参数量。

5.3 消融实验

堆叠不同数量的SCAMs的效果

作者对NAFSSR-S进行SCAMs块的堆叠,块数从0组件增至32。其中,块数为0实际上对应的是NAFNet,因为它没有利用到双目图像间的互补信息。可以看到,随着堆叠更多的SCAMs块,模型的PSNR也也在不断提升。这说明了SCAMs块能够充分利用双目图像间的互补信息,从而改善双目超分的效果。

数据增强策略

作者对不同数据增强策略(水平翻转、垂直翻转和通道混洗)也做了消融实验,发现上述三种数据增强策略都使用时,模型性能提升最高。

随机深度和TLSC策略

作者使用NAFSSR-S和NAFSSR-B作为基线,分别对随机深度和TLSC策略做了消融实验。其中测试集不光使用了Flickr1024的112张验证集(我们称作分布内数据,因为训练集使用的是Flickr1024的800张训练集),还有KITTI2012,KITTI2015和Middlebury(我们称作分布外数据)。由上表可以看出,无论去除了随机深度还是TLSC,模型的性能都会下降。

5.4 主观比较

5.5 客观比较

5.6 NTIRE 2022双目超分挑战赛

为了进一步在比赛中提升模型的性能,作者在NAFSSR-Base的基础上增加了模型的宽度和深度。为防止过拟合,随机深度的概率设置为0.3或0.4。在模型测试阶段,作者使用了自集成(slef-ensemble)模型集成(model ensemble)的策略,自集成实际上指的是在测试时使用训练阶段的数据增强策略,将得到的结果进行集成(加权平均);而模型集成指的是使用不同的超参数训练出多个模型,然后对多个模型进行集成。最终,作者在验证集上得到了24.239的PSNR值,在测试集上得到了23.787的PSNR值,获得了NTIRE 2022双目超分挑战赛的冠军


6. 结论

在本文中,作者提出了一个双目图像超分模型,叫做NAFSSR。作者堆叠了NAFBlock块用于视图内特征提取,并结合双目交叉注意力用于进行交叉视角的特征交互。此外,作者在训练时采用了更强的数据增强策略,使用测试时局部变换来解决双目超分中训练-测试不一致的问题。作者使用随机深度技术来提升大模型的泛化性。大量实验表明NAFSSR超越了当前先进的模型,并取得了更优的性能。


最后感谢小伙伴们的学习噢~


题外话:在NTIRE 2024 Stereo Image Super-Resolution Challenge - Track 2 Constrained SR & Realistic Degradation的挑战赛上,笔者也是通过改进NAFSSR模型,在符合模型参数量和计算量的情况下,取得了第五的成绩,这份喜悦也跟大家一同分享。

  • 9
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

__Wedream__

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值