(VDSR)Accurate Image Super-Resolution Using Very Deep Convolutional Networks——超分辨率(八)

最新推荐文章于 2024-07-12 11:27:21 发布

Cpp编程小茶馆

最新推荐文章于 2024-07-12 11:27:21 发布

阅读量3.5k

点赞数 5

分类专栏：超分辨率文章标签： VDSR

本文链接：https://blog.csdn.net/xu_fu_yong/article/details/97131687

版权

超分辨率专栏收录该内容

8 篇文章 27 订阅

订阅专栏

Accurate Image Super-Resolution Using Very Deep Convolutional Networks

在VDSR论文中作者提到，输入的低分辨率图像和输出的高分辨率图像在很大程度上是相似的，也就是指低分辨率图像携带的低频信息与高分辨率图像的低频信息相近，训练时带上这部分会多花费大量的时间，实际上我们只需要学习高分辨率图像和低分辨率图像之间的高频部分残差即可。残差网络结构的思想特别适合用来解决超分辨率问题，可以说影响了之后的深度学习超分辨率方法。VDSR是最直接明显的学习残差的结构，其网络结构如下图所示。
在这里插入图片描述
论文链接: (Accurate Image Super-Resolution Using Very Deep Convolutional Networks, CVPR2016)

摘要

提出一个高准确度的SISR方法。该方法使用一个深网络（启发于用于ImageNet 分类的VGG-net）。使用深网络可以有效提高结果，但是训练收敛速度会变缓慢，因此提出一个简单但有效的训练策略：仅学习残差；使用比SRCNN高 $10^{4}$ 倍的高学习率。使用极高学习率会导致梯度爆炸，解决方法：残差学习和梯度裁剪（gradient clipping）

本文方法解决以上问题：

上下文信息（Context）：通过stack small filters来进行获得一个比较大的感受野，最大达到41x41，深网络可以使用较大的感受野，这可以充分考虑上下文信息；
收敛（Convergence）：加速训练：通过残差学习和极高学习率；
尺度（Scale Factor）：一个单一的神经网络可以针对多尺度超分辨率；

VDSR主要有4点贡献。

加深了网络结构(20层)，使得越深的网络层拥有更大的感受野。文章选取3×3的卷积核，深度为D的网络拥有(2D+1)×(2D+1)的感受野。
采用残差学习，残差图像比较稀疏，大部分值都为0或者比较小，因此收敛速度快。VDSR还应用了自适应梯度裁剪(Adjustable Gradient Clipping)，将梯度限制在某一范围，也能够加快收敛过程。
VDSR在每次卷积前都对图像进行补0操作，这样保证了所有的特征图和最终的输出图像在尺寸上都保持一致，解决了图像通过逐步卷积会越来越小的问题。文中说实验证明补0操作对边界像素的预测结果也能够得到提升。
VDSR将不同倍数的图像混合在一起训练，这样训练出来的一个模型就可以解决不同倍数的超分辨率问题。

方法

输入为插值后的低分辨率图像。
除第一层和最后一层之外，中间d层有相似结构：64个滤波器，尺寸为3 × 3 × 64，每一个滤波器跨64个通道，在3 × 3空间区域内操作。
第一层，对输入图像操作。
最后一层用于图像重建，包含一个滤波器，尺寸为3 × 3 × 64。
在每个卷积层之前补0保证特征图和输入图像尺寸一样。

训练

设x为插值后的低分辨率图像，y为高分辨率图像。给定训练数据集 $\left\{\mathbf{x}^{(i)}, \mathbf{y}^{(i)}\right\}_{i=1}^{N}$ ，我们的目标是学习一个模型 $f$ 来预测值 $\hat{\mathbf{y}}=f(\mathbf{x})$ ，其中 $\hat{\mathbf{y}}$ 是目标HR图像的估计值。我们最小化了训练集上的均方误差 $\frac{1}{2}\|\mathbf{y}-f(\mathbf{x})\|^{2}$ 。

残差学习（Residual-Learing）

为了解决梯度弥散/梯度爆炸问题（vanishing/expoding gradients problem）；
定义残差图像：r=y-x;
损失函数定义为：
$\frac{1}{2}\|\mathbf{r}-f(\mathbf{x})\|^{2}$
f(x)是网络预测；
损失层有三个输入：残差估计；网络输入(interpolated low-resolution)图像和基准HR图像。

高学习率（High Learning Rates for Very Deep Networks）

简单的设置高学习率会导致梯度弥散，因此使用梯度裁剪（gradient clipping）来最大化加速网络收敛并抑制梯度弥散。

可调梯度裁剪（Adjustable Gradient Clipping）

梯度裁剪是一种常用的训练递归神经网络[17]的方法。但是，据我们所知，它在训练cnn时的使用是有限的。然而还是存在许多限制梯度的方法吗，一个常见的策略是裁剪独立在预定义的范围 $[-\theta, \theta]$ 内。
利用训练中常用的随机梯度下降法，将学习率乘以调整步长。如果使用学习速率高,很可能θ是被调小以避免爆炸在高梯度学习速率的regime。但随着学习速率的减小，有效梯度(梯度乘以学习速率)趋近于零，如果学习速率呈几何级数下降，训练可能需要指数次迭代才能收敛。
为了最大化收敛速度,我们裁剪梯度在 $\left[-\frac{\theta}{\gamma}, \frac{\theta}{\gamma}\right]$ ,γ表示当前的学习速率。我们发现可调梯度裁剪使我们的收敛过程非常快。我们的20层网络训练在4小时内完成，而3层SRCNN需要几天的时间来训练。

多尺度（MutiScale）

我们还训练了一个多尺度模型。使用这种方法，所有预定义的缩放因子都可以共享参数。训练一个多尺度模型很简单。针对几个指定规模的训练数据集被组合成一个大数据集。
Data preparation is similar to SRCNN with some differences. Input patch size is now equal to the size of the receptive field and images are divided into sub-images with no overlap. A mini-batch consists of 64 sub-images, where sub-images from different scales can be in the same batch.

实验结果
在这里插入图片描述