深度学习用于图像超分辨率重建之ESPCN——超分辨率(七)

本文链接：https://blog.csdn.net/xu_fu_yong/article/details/96967977

Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

论文链接: Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network, CVPR2016)

作者提到，像SRCNN那样的方法，由于需要将低分辨率图像通过上采样插值得到与高分辨率图像相同大小的尺寸，再输入到网络中，这意味着要在较高的分辨率上进行卷积操作，从而增加了计算复杂度。本文提出了一种直接在低分辨率图像尺寸上提取特征，计算得到高分辨率图像的高效方法。ESPCN网络结构如下图所示。
在这里插入图片描述

摘要

近年来，基于深度神经网络的几种模型在单幅图像超分辨率重建精度和计算性能方面都取得了很大的成功。在这些方法中，通常在重建之前，使用单个滤波器(通常为双三次插值)将低分辨率(LR)输入图像放大到高分辨率(HR)空间。这意味着在HR空间中执行超分辨率（SR）操作。我们证明，这是次优的，并且增加了计算复杂度。在本文中，我们提出了第一种能够在单个K2 GPU上实时1080p视频SR的卷积神经网络（CNN）。为此，我们提出了一种新的CNN体系结构，在LR空间中提取特征映射。此外，我们引入了一个有效的亚像素卷积层，它学习一组尺度扩展滤波器，以便将最终的LR特征映射放大到HR输出中。通过这样做，我们有效地将SR传递途径中的手工双三次滤波器替换为针对每个特征图专门训练的更复杂的放大滤波器，同时还降低了整个SR操作的计算复杂度。我们使用来自公开可用的数据集的图像和视频来评估所提出的方法，并显示出其性能明显更好（+0.15dB用于图像，+0.39dB用于视频），并且比先前基于CNN的方法快一个数量级。

介绍

从它低分辨率（LR）对应部分恢复高分辨率（HR）图像或视频是数字图像处理领域非常感兴趣的课题。这项被称为超分辨率（SR）的任务在许多领域有直接的应用，如HDTV[15]、医学成像[28，33]、卫星成像[38]、人脸识别[17]和监视[53]。全局SR问题假设LR数据是HR数据的低通滤波（模糊）、下采样和噪声版本。由于不可逆低通滤波和子采样过程中出现的高频信息丢失，这是一个高度不适定（病态）的问题。此外，SR操作实际上是从LR到HR空间的一对多映射，该映射可以有多个解，其中确定正确的解是困难的（重要的）。许多SR技术的基础的一个关键假设是许多高频数据是冗余的，因此可以从低频分量中精确地重构。因此，SR是一个推理问题，因此依赖于我们所讨论的图像的统计模型。
许多方法假设多个图像可用作具有不同视角的同一场景的LR实例，即具有独特的先验仿射变换。这些可归类为多图像SR方法，并通过用附加信息约束不适定问题并尝试反转下采样过程来利用显式冗余。然而，这些方法通常需要计算复杂的图像配准和融合阶段，其精度直接影响结果的质量。另一种方法是单图像超分辨率（SISR）技术。这些技术试图学习自然数据中存在的隐式冗余，以便从单个LR实例中恢复丢失的HR信息。这通常以图像的局部空间相关性和视频中的附加时间相关性的形式出现。在这种情况，需要重构约束形式的先验信息来限制重构的解空间。
。

方法

SISR的任务是从给定一张由相应原始HR图像 $I^{H R}$ 的缩放得到的LR图像 $I^{L R}$ 来估计HR图像 $I^{S R}$ 。下采样操作是确定性的且是已知的：为了从 $I^{H R}$ 产生 $I^{L R}$ ，我们首先使用高斯滤波器卷积 $I^{H R}$ ，从而模拟相机的点扩展函数，然后将图像下采样r倍。一般来说， $I^{L R}$ 和 $I^{H R}$