NTIRE2022双目超分赛道冠军方案解读——NAFSSR

__Wedream__

已于 2024-04-12 09:41:10 修改

阅读量1.9k

点赞数 9

文章标签：超分辨率重建 NTIRE 图像复原和增强 CVPR 深度学习

于 2024-04-09 10:24:50 首次发布

本文链接：https://blog.csdn.net/weixin_43800577/article/details/137541034

版权

本文详细解读了NTIRE2022双目超分辨率挑战中的冠军方案NAFSSR，该模型利用双目交叉注意力模块融合视角信息，结合训练策略优化，提升了双目超分任务的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NTIRE2022双目超分赛道冠军方案解读——NAFSSR

0. 简介

NTIRE 的全称为New Trends in Image Restoration and Enhancement Challenges，即“图像复原和增强挑战中的新趋势”，是CVPR(IEEE Conference on Computer Vision and Pattern Recognition)举办的极具影响力的计算机视觉底层任务比赛，主要涉及的研究方向有：图像超分辨率、图像去噪、去模糊、去摩尔纹、重建和去雾等。

其中在2022年，CVPR开展的NTIRE相关挑战有：

光谱恢复（spectral recovery）；
光谱去马赛克（spectral demosaicing）；
感知图像质量评估（perceptual image quality assessment）；
补全（inpainting）；
夜间摄影渲染（night photography rendering）；
高效超分辨率（efficient super-resolution）；
学习超分辨率空间（learning the super-resolution space）；
压缩视频的超分辨率和视频增强（super-resolution and quality enhancement of compression video）；
高范围动态（high dynamic range）；
双目超分辨率（stereo super-resolution）；
连拍超分辨率（burst super resolution）。

同时，以上的这些挑战也蕴含着当前的一些研究难点及挑战，需要研究学者们集思广益，提出针对提升任务性能的想法，为共同解决近年来的难题贡献出一份力量。

本篇文章着重于NTIRE 2022双目超分辨率（stereo super-resolution）挑战赛的冠军方案的解读，总结报告中能够提升任务的tricks，以期给相关的科研任务和竞赛一些启发。NTIRE 2022双目超分辨率（stereo super-resolution）挑战赛的目标是：(i) 衡量并推动 SR 的最新技术； (ii) 比较不同的解决方案。

比赛提供的数据集是Flickr1024数据集。Flickr1024数据集包含1024对RGB图像，其中训练集有800对，验证集有112对，测试集有112对。Flickr1024数据集中的图像都是手工采集的高质量图像，有着多样的内容和丰富的细节。

1. 摘要

双目图像超分旨在使用双目系统提供的互补信息来提高超分图像的质量。为了实现这个目标，不少方法集中于精心设计网络模块，损失函数等来利用另一个视角的信息。但是这样的设计增加了系统的复杂度，使得研究者难以评估新的想法，并且和其他方法作比较。

针对这个问题，作者在NAFNet（一个强大而简单的图像复原模型）能够提取单视角特征基础上，添加了交叉视角注意力来融合双目场景中视角间的特征，这个模型记作NAFSSR。

为了充分挖掘NAFSSR的性能，作者提出了一系列训练和测试相关的策略。大量实验展示了NAFSSR的有效性，尤其是在KITTI2012，KITTI2015，Middlebury和Flickr1024数据集上，NAFSSR超过了当前先进的方法（state-of-the-art）。更重要的是，NAFSSR获得了NTIRE 2022双目超分辨率（stereo super-resolution）挑战赛的冠军。

2. 引言

双目超分旨在从成对的低分辨率左右图像中重建出高分辨率的细节。对于这个目标来说，单视角的上下文信息（intra-view information） 和 左右图像之间的信息（cross-view information） 是尤为关键的。

一方面，近期双目超分的工作主要集中于精心设计新颖的网络结构和损失函数，从而有效地利用另一个视角的额外信息，因为双目系统提供的交叉视角信息能够提高图像的质量。另一方面，随着深度学习技术的发展，单幅图像复原取得了显著的进步，比如SwinIR和NAFNet。但是单幅图像复原技术对于双目图像超分这个任务来说，并不是最优的，因为它不能利用交叉视角信息。

NAFNet能够以低的系统复杂度在图像复原任务上获得较好的性能，受到NAFNet的启发，通过在NAFNet上添加简单的交叉视角注意力模块，作者提出了一个新的用于双目图像超分的baseline模型，NAFSSR。NAFSSR能够充分的利用视角内的信息和交叉视角的信息，实现很好的双目超分效果。特别地，作者通过堆叠NAFNet块（称作NAFBlocks），并以权重共享的方式提取两个视图各自的视角内特征。此外，作者提出了双目交叉注意力模块（stereo cross-attention module, SCAM）来关注并融合左右视图间的特征。SCAM首先计算从左（视图）到右（视图）和从右到左的双向交叉注意力，然后融合交叉视图特征和视图内特征。相比于Transformer关注一张图像所有位置的注意力，SCAM只关注沿着水平极线（horizontal epipolar line）对应的特征。

尽管NAFSSR有强大的表达能力，但是如果训练数据过少，也会存在过拟合的问题。为了解决这个问题，作者在训练阶段使用了随机深度（stochastic depth）作为正则化的手段，使用了RGB通道混洗（channel shuffle）作为数据增强的手段。此外，作者留意到在双目超分任务中也会碰到TLSC中提到的训练/测试不一致的问题，于是作者在测试阶段采用TLSC策略缓解这个不一致的问题。如下图所示，作者提出的NAFSSR families比现有的方法，在性能和参数上能够达到更好的权衡（trade-off）。

作者的贡献总结如下：

首先，作者提出了NAFSSR，继承了NAFNet既简单又性能好的优势。同时提出了双目交叉注意力模块，能够利用双目超分任务的性质（使用交叉视图信息）来提升网络性能；
基于NAFSSR，作者设计了一系列训练/测试策略（随机深度，RGB通道混洗，TLSC），解决了阻碍双目超分任务性能提升的障碍。
大量实验表明论文所提方法的有效性，凭借NAFSSR，作者们获得了NTIRE 2022双目超分辨率（stereo super-resolution）挑战赛的冠军。

3. 相关工作

相关工作中回顾了一些主流的单幅图像超分（Single Image Super-resolution）、双目图像超分（Stereo Image Super-resolution） 和 训练/测试策略（Training and Testing Strategies） 领域的方法。

3.1 单幅图像超分

Dong等人提出了第一个基于CNN的超分方法——SRCNN。
为了提升模型性能，不少工作都增加了模型的深度和宽度，比如使用残差和密集连接，引入通道/空间注意力等。
SwinIR提出了基于Swin Transformer的图像复原方法，在单幅图像超分中取得了当前先进的性能。
在这篇论文中，作者扩展了NAFNet，将一个在单幅图像复原任务上取得良好性能的方法，应用在了双目图像超分任务。

3.2 双目图像超分

双目图像超分任务旨在从低分辨率的左右视图对中重构高分辨率的细节。

StereoSR通过联合训练分别用于亮度和色度的两个级联子网络，来学习连续视差偏移和高分辨率图像之间的映射。
PASSRnet引入了视差注意力机制（parallax-attention mechanism），该注意力机制沿着极线有着全局的感受野，从而解决了不同双目图像有大视差变化的问题。
Ying等人提出了双目注意力模块（stereo attention module, SAM），从而使得预训练的单幅图像超分网络能够用于双目图像超分。
StereoIRN引入了两个视差注意力损失，并使用一个预训练的视差流网络来对齐两个视角的特征。
Song等人提出了自注意力机制和视差注意力机制同时聚合从该视角和另一视角双目图像的信息。
iPASSR提出了 对称双向视差注意力（bi-directional parallax attention module, biPAM） 和内联遮挡处理方案（inline occlusion handling scheme）来利用双目图像超分的对称线索。
CVCnet从全局和局部的角度聚合了交叉视角的空间特征。
SSRDE-FNet在一个统一的框架中同时完成了双目超分和视差估计的任务，并且这两个任务以相互促进的方式进行交互。
作者设计了一个简单的双目交叉注意力模块（SCAM），将单幅图像复原网络扩展到了双目图像超分。相比于SAM（使用在额外的数据集上预训练的单幅图像超分网络，并在双目数据集上使用多种损失微调），作者提出的NAFSSR，直接在双目图像数据集上使用L1损失，从头开始训练。

3.3 训练/测试策略

正则化技术（如权重衰减、dropout和随机深度）广泛地用于高级视觉任务，从而提升模型性能。但是在图像超分领域，正则化技术是否能够有效提升模型性能，还没有一致认同的观点。比如，Lin等人发现RCAN由于欠拟合限制了模型的性能；但是Kong等人展示了合理地使用dropout，可以防止超分网络在特定退化中陷入过拟合。在本文中，作者发现所提出的网络（尤其是最小的网络）会在双目超分训练数据中发生过拟合，于是作者使用随机深度提高模型的泛化性。