图像超分辨率重建 VDSR解析

最新推荐文章于 2021-10-22 16:11:51 发布

scut_yp

最新推荐文章于 2021-10-22 16:11:51 发布

阅读量3.1k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/ypshowm/article/details/103124744

版权

本文详细解析了Very Deep Convolutional Networks (VDSR)在图像超分辨率重建中的应用，提出通过加深网络以获取更多上下文信息，采用残差学习加速训练和使用可调整的梯度裁剪实现高学习率。VDSR相较于传统方法在收敛速度和性能上有显著提升，并能处理多尺度因子的超分辨率问题。

摘要由CSDN通过智能技术生成

Accurate Image Super-Resolution Using Very Deep Convolutional Networks

论文地址：https://arxiv.org/abs/1511.04587v1

代码：https://github.com/huangzehao/caffe-vdsr

https://github.com/Jongchan/tensorflow-vdsr

作者在该文章中提取了一个更加精确的网络。网络相比于之前的网络，要更加的深，有20层。通过在深度网络结构中多次层叠小型的过滤器，这样可以有效的利用大图像区域的上下文信息。但是随着深度的增加，收敛速度也会变慢。作者说提出了一种比较有效的训练方法。在作者的网络中，仅仅学习残差，并且使用可调整的梯度裁剪来实现很高的学习率。

SRCNN表现了很不错的效果。但是作者发现其有三个缺陷：

图像的上下文信息太少了（也就是说感受野太小少了，因为只有3层网络分别是9X9,1X1,5X5，感受野是13*13）。
训练收敛太慢了，学习速率也比较慢。
该网络仅仅适用于单个比例/尺寸。

于是，本文中的作者就从这三个方向去下手：

一：上下文信息（Context）

作者说利用到了非常深的图像区域上的上下文信息，（We utilize contextual information spread over very large image regions）。我觉得说的就是提高网络的深度以此来提高感受野，让图像特征提取到更多的细节。

二：收敛（Convergence）

如果学习率使用的比较小，那么对于很深的网络来说，收敛速度就非常慢。作者提出用残差网络和极高的学习率去加快训练速度（We suggest a way to speed-up the training: residual-learning CNN and extremely high learning rates.）。使用高的学习率可以加快收敛速度，但是同时也会导致梯度爆炸。于是作者就想到用残差学习和梯度裁剪来进行优化。另外作者提到，低分辨率图像和高分辨率图像在很大程度上是共享相同的信息的（这里说的就是低频信息，因为高分辨率图像可以分解为低频信息(也就是低分辨率图像)和高频信息(也就是残差图像或者说图像细节)），因此对LR和HR图像之间的差异（即残差）进行显示建模是很有利的。另外，作者将初始的学习率设置的很大（是SRCNN的10000倍），而这是通过残差学习和梯度裁剪来实现的。作者也分析了SRCNN和VDSR的收敛区别，作者认为，SRCNN直接对高分辨率图像建模，因此有两个用途：将输入传送到端层以及重建残差。而作者认为，将输入传递到端层与自动编码器的工作类似，因此训练时间大都都花在了学习此自动编码器上面去了，而使得学习其他部分（细节图像）的收敛速度大大降低。而VDSR是直接对残差图像进行建模的，因此收敛速度更快，精度更高。

三：比例因子（Scale Factor）