Closed-loop Matters: Dual Regression Networks for Single Image Super-Resolution

最新推荐文章于 2024-03-06 16:09:25 发布

日月凌空11

最新推荐文章于 2024-03-06 16:09:25 发布

阅读量445

点赞数 1

文章标签： python 人工智能

原文链接：https://arxiv.org/pdf/2003.07018.pdf

版权

本文提出了一种对偶回归方案来解决图像超分辨率（SR）中的两个主要问题：一是LR到HR映射的无限可能性，二是配对数据的局限性。通过引入额外的约束，学习从超分辨率图像回退到LR图像的映射，形成闭环，从而估计下采样内核并减少可能函数空间，提高SR模型的训练效果。此外，该方法能直接从LR图像中学习，适应未配对的真实世界数据，如YouTube视频帧，展现出优于现有方法的性能。

摘要由CSDN通过智能技术生成

摘要

深度神经网络通过学习从低分辨率（LR）图像到高分辨率（HR）图像的非线性映射函数，在图像超分辨率（SR）方面表现出有前途的性能。但是，现有的SR方法存在两个潜在的局限性。首先，学习从LR到HR图像的映射函数通常是一个不合适的问题，因为存在无限的HR图像可以下采样到相同的LR图像。因此，可能功能的空间可能非常大，这使得很难找到一个好的解决方案。其次，配对的LR-HR数据在实际应用中可能不可用，并且潜在的退化方法通常是未知的。对于这种更一般的情况，现有的SR模型经常会产生适应问题并产生较差的性能。为了解决上述问题，我们提出了一种对偶回归方案，通过在LR数据上引入额外的约束来减少可能函数的空间。具体来说，除了从LR到HR图像的映射之外，我们还学习了额外的对偶回归映射估计下采样内核并重建LR图像，形成一个闭环以提供额外的监督。更关键的是，由于对偶回归过程不依赖于HR图像，因此我们可以直接从LR图像中学习。从这个意义上说，我们可以轻松地将SR模型调整为真实世界的数据，例如来自YouTube的原始视频帧。对配对训练数据和未配对真实世界数据的大量实验证明了我们优于现有方法。

发表于：2020 IEEE/CVF 计算机视觉和模式识别会议（CVPR）

会议日期： 13年19月2020-<>日

加入 IEEE Xplore 的日期： 05 年 2020 月 <> 日

国际标准书号信息：

国际标准刊号信息：

英斯佩入藏号： 19874211

DOI： 10.1109/CVPR42600.2020.00545

发布者： IEEE（英语：IEEE）

会议地点： 美国华盛顿州西雅图

第一节介绍

深度神经网络（DNN）一直是许多实际应用的主力，包括图像分类 [18]、[14]、[9]、[15]、[27]、[13]、视频理解 [46]、[45]、[44]、[6] 和许多其他应用 [7]、[50]、[52]、[11]、 [20 ].近年来，图像超分辨率（SR）已成为一项重要任务，旨在学习非线性映射以从低分辨率（LR）图像中重建高分辨率（HR）图像。基于DNN，已经提出了许多方法来提高SR性能[51]，[26]，[10]，[12]，[49]。但是，这些方法可能会受到两个限制。

第一学习从LR到HR图像的映射通常是一个不合适的问题，因为存在无限多的HR图像，可以缩小以获得相同的LR图像[36]。因此，将LR映射到HR图像的可能功能的空间变得非常大。因此，学习性能可能会受到限制，因为在如此大的空间中学习一个好的解决方案是非常困难的。为了提高SR性能，可以通过增加模型容量来设计有效的模型，例如EDSR [26]，DBPN [16]和RCAN [51]。然而，这些方法仍然存在可能映射功能的巨大空间问题，导致性能有限，而不会产生清晰的纹理[24]（见图1）。因此，如何减少映射函数的可能空间，提高SR模型的训练成为一个重要的问题。

其次，当配对数据不可用时，很难获得有前途的SR模型[43]，[54]。请注意，大多数SR方法依赖于配对的训练数据，即HR图像及其双立方降解的LR对应物。但是，配对数据可能不可用，并且未配对的数据通常在实际应用中占主导地位。此外，真实世界的数据不一定与通过特定退化方法（例如，Bicubic）获得的LR图像具有相同的分布。因此，为实际应用学习良好的SR模型可能非常具有挑战性。更关键的是，如果我们直接将现有的SR模型应用于真实世界的数据，它们通常会产生严重的适应问题并产生较差的性能[43]，[54]。因此，如何有效地利用未配对的数据使SR模型适应实际应用成为一个紧迫而重要的问题。

在本文中，我们提出了一种新的对偶回归方案，该方案形成闭环以提高SR性能。为了解决第一个限制，我们引入了一个额外的约束来减少可能的空间，以便超分辨率图像可以重建输入的LR图像。理想情况下，如果来自LR→HR的映射是最佳的，则可以对超分辨率图像进行下采样以获得相同的输入LR图像。有了这样的约束，我们能够估计底层的下采样内核，从而减少可能函数的空间，以找到从LR到HR的良好映射（参见注1中的理论分析）。因此，更容易获得有前途的SR模型（参见图1中的比较）。为了解决第二个限制，由于LR图像的回归不依赖于HR图像，我们的方法可以直接从LR图像中学习。通过这种方式，我们可以轻松地使SR模型适应现实世界的LR数据，例如来自Youtube的原始视频帧。使用配对训练数据和未配对真实世界数据对SR任务进行了大量实验，证明了我们的方法优于现有方法。

我们的贡献总结如下：

我们通过引入一个额外的约束来开发一个对偶回归方案，使得映射可以形成一个闭环，并且可以重建LR图像以提高SR模型的性能。此外，我们还从理论上分析了所提方案的泛化能力，进一步证实了其优于现有方法。
我们研究了一个更一般的超分辨率案例，其中没有相应的HR数据，没有现实世界的LR数据。通过提出的对偶回归方案，深度模型可以很容易地适应现实世界的数据，例如来自YouTube的原始视频帧。
对具有配对训练数据和未配对真实世界数据的SR任务进行了大量实验，证明了所提出的双回归方案在图像超分辨率下的有效性。
第2节.

相关工作

监督超分辨率

已经做出了许多努力来提高SR的性能，包括基于插值的方法[19]和基于重建的方法[16]，[25]，[51]。哈里斯等. [16] 提出了一个反向投影网络（DBPN），它由几个上采样和下采样层组成，以迭代生成LR和HR图像。张等. [51] 提出信道注意力机制来构建一个名为RCAN的深度模型，以进一步提高SR的性能。但是，这些方法仍然具有非常大的可能映射空间，这使得很难学习出一个好的解决方案。

无监督超分辨率

在无监督环境中学习没有配对数据的超分辨率模型越来越感兴趣[43]，[54]。基于Cycle-GAN[56]，Yuan等人。 [43] 提出了一个CinCGAN模型来生成没有配对数据的HR图像。最近，提出了一些盲SR方法[2]，[55]来学习未知的降解方法。然而，这些方法通常完全丢弃配对的合成数据，这些数据可以很容易地获得并用于促进训练。相反，我们的双回归方案旨在通过利用真实世界的LR数据和配对的合成数据，使SR模型适应新的LR数据。

对偶学习

对偶学习方法[17]，[40]，[41]，[53]包含一个原始模型和一个对偶模型，以同时学习两个相反的映射，以提高语言翻译的性能。最近，该方案也被用于在没有配对训练数据的情况下进行图像转换，例如CycleGAN [56]和DualGAN [42]。具体来说，提出了循环一致性损失以避免GAN方法[56]，[4]，[5]的模式崩溃问题，并有助于最小化分布分歧。但是，这些方法不能直接应用于标准SR问题。相比之下，我们使用闭环来减少SR可能功能的空间。此外，我们考虑学习非对称映射，并为使用循环的合理性和必要性提供理论保证。

第3节.

建议的方法

我们提出了一种对偶回归方案来处理超分辨率（SR）的配对和未配对训练数据。整体训练方案如图 2 所示。

3.1. 配对数据的对偶回归方案

现有的方法只专注于学习从LR到HR图像的映射。但是，可能的映射函数的空间可能非常大，这使得训练非常困难。为了解决这个问题，我们提出了一种对二回归方案，在LR数据上引入一个额外的约束。具体来说，除了学习映射LR→ HR之外，我们还学习了从超分辨率图像到LR图像的逆/对偶映射。
第5节.

实验

本文在双立方数据和未成对真实世界数据场景下的图像超分辨率任务上广泛评估了所提出的方法。所有实现都基于 PyTorch。1

5.1. 监督图像超分辨率的结果

在本节中，我们首先展示图 4 中 8× 和 4× SR 的性能和模型尺寸方面的图示比较。然后，我们提供4×和8×SR的详细比较。在实验中，我们提出了两个模型，即小型模型DRN-S和大型模型DRN-L。我们从预训练模型、发布的代码或原始论文中获得所有比较方法的结果。

我们还比较了 4× 和 8× SR 的不同模型中的参数数量。由于页数限制，我们只显示 4× SR 的结果，并将 8× SR 放在补充中。从图 4 中，我们的 DRN-S 通过少量参数获得了有希望的性能。当我们增加通道和层的数量时，较大的模型DRN-L进一步提高了性能并获得最佳结果。定理1的实证结果和理论分析都验证了所提图像超分辨率对偶回归方案的有效性。

5.3. 对未配对数据的适应结果

在这个实验中，我们将所提出的方法应用于各种现实世界的未配对数据。与监督设置不同，我们首先考虑一个玩具箱，其中我们使用不同的退化方法（例如，最近和BD [48]）评估LR图像上的SR模型。在训练过程中，我们只能访问 LR 图像，而不能访问其对应的 HR 图像。然后，我们还将我们的方法应用于来自YouTube的LR原始视频帧。

5.3.1 数据集和实现细节

在这个实验中，我们通过对现有图像进行下采样来获得配对的合成数据。考虑到实际的SR应用，所有配对数据都属于与未配对数据不同的域（请参阅补充中的更多讨论）。遵循[32]，我们从ImageNet中随机选择3k图像（称为ImageNet3K），并使用不同的退化方法（包括最近和BD）获得LR图像。我们采用DIV2K（双立方）作为配对的合成数据2和具有不同降级的 ImageNet3K LR 图像作为未配对数据。请注意，我们的实验中不使用 ImageNet3K HR 图像。对于视频的SR任务，我们收集3k原始视频帧作为未配对的数据来训练模型。在本节中，我们使用 DRN-S 模型来评估所提出的自适应算法，并将结果模型称为 DRN-Adapt。更多细节可以在补充中找到。

5.3.2 未配对合成数据的比较

为了评估未配对数据的适应性能，我们比较了我们的DRN-Adapt和合成数据的基线方法。我们在表8中报告了2×超分辨率的不同方法的PSRN和SSIM值。

从表2中可以看出，DRN-Adapt在所有数据集上的表现始终优于监督方法。对于基于CycleGAN的方法，CinCGAN实现了比监督学习方法更好的性能，但由于前面提到的固有局限性，仍然无法超越我们的方法。请注意，对于最近 LR 数据，我们还报告最近内核的恢复结果，这与降级方法相同。与该基线相比，我们的方法还产生了很大的性能改进。这些结果验证了所提自适应算法的有效性。

5.3.3 未配对真实世界数据的比较

我们将我们的方法应用于YouTube原始视频帧，由于现实世界场景中复杂且未知的降级，因此更具挑战性。由于没有真实的人力资源图像，我们只提供视觉比较。从图 6 中，从三个监督基线（即 EDSR、DBPN 和 RCAN）生成的帧包含大量马赛克。对于CinCGAN，由于对未配对的LR和HR图像之间的数据差异的敏感性，SR结果失真并包含大量噪声。相比之下，我们的 DRN-Adapt 可生成具有更锐利、更清晰纹理的视觉上很有前途的图像。由于页数限制，我们在补充中放置了更多视觉结果。

第6节.

进一步实验

6.1. 对偶回归方案的消融研究

我们对双回归方案进行了消融研究，并在表4中报告了3× SR的结果。与基线相比，配备双回归方案的模型在所有数据集上都能产生更好的性能。这些结果表明，对偶回归方案可以通过引入额外的约束来减小映射函数的空间，从而改善HR图像的重建。我们还评估了我们的双重回归方案对其他模型的影响，例如基于SRResNet [24]的网络（详见补充）。