ZSSR-“Zero-Shot” Super-Resolution using Deep Internal Learning论文详解

 

论文下载:https://arxiv.org/pdf/1712.06087.pdf  CVPR2018

GitHub:https://github.com/assafshocher/ZSSR  TensorFlow版本

项目:http://www.wisdom.weizmann.ac.il/~vision/zssr/

 

Abstract

1.目前使用基于CNN的SR,都是监督方法,且限定于特定的数据,预先从HR图像中得到LR图像(通常是三立方插值),而没有任何的噪声或伪影,但真实图像上往往有这些信息,所以SOTA算法效果都不理想。

2.提出了一种“Zero-Shot” SR算法,使用了深度学习的方法,但不依赖先前的训练,对每张图使用小型CNN网络进行无监督训练,并输出SR结果。

3.利用图像内部的重复性信息。

4.可以适用每张图像的不同设置(不同缩放内核,缩放比例等),可以对未知或者不理想的真实图像进行SR,在这类图像上,ZSSR要优化SOTA监督SR算法,这是第一个非监督的基于CNN的SR算法。

 

Introduction

目前使用基于CNN的SR方法,比传统SR算法要好很多了,但是只能对满足他们预设条件的图像效果才好,而真实世界的图片,比如从互联网下载的,手机拍的以及老照片,效果就不理想了。

图像内部出现重复信息是这个真实世界图像一个很强的特征,内部信息熵比外部图像要小很多,这是无监督SR算法的基础。

文章主要贡献:

1.这是第一个基于CNN的无监督SR方法。

2.它可以处理非理想的成像条件,以及各种各样的图像和数据类型(即使是第一次遇到)。

3.它不需要预训练,并且可以使用少量的计算资源来运行。

4.它可以应用于任何大小的SR,并且在理论上也可以具有任何纵横比。

5.可以适应已知和未知的成像条件(在测试时)。

6.在“非理想”条件下图像上是最先进的SOTA SR,在“理想”条件下训练的结果也可以和目前基于监督的SotA方法媲美。

 

Internal Image Statistics

自然图像具有强大的内部数据重复性,内部图像统计通常比从一般图像获得的外部统计提供更强的预测能力。下图中,基于内部块匹配的算法能够学到栏杆信息,基于监督的算法却学不出来,因为他们是依靠大量的外部图像,没有充分利用图像内部的重复性。

 

Image-Specific CNN

对测试图片进行下采样得到LR图,和测试图构成LR-HR对,使用小型网络进行训练,将测试图输入到训练好的网络,就得到最终需要的SR图。网络是全卷积的,所以可以处理任何分辨率。

 

Data augmentation

对输入图先进行各种比例的下采样(比例较小)标记为HR-fathers,再进行0,90,180,270度旋转和垂直和水平翻转,然后再下采样,标记为LR-sons,构成LR-HR数据对。

为了能够对输入图分辨率较低,但又能做较大缩放比例的SR,中间有几个等级的缩放比例,论文里是6个,通过这6个达到需要的缩放比例,每个阶段生成的SR图像,又会当做新的HR-father,进行同样的数据扩展,添加到下一阶段的缩放比例训练中。例如,需要宽高上采样2.0,6个阶段划分为[[1.0, 1.5], [1.5, 1.0], [1.5, 1.5], [1.5, 2.0], [2.0, 1.5], [2.0, 2.0]= [2.0, 2.0],其中[1.5,1.5]和[2.0,2.0]应该是没有缩放

 

Architecture & Optimization

先使用插值的方法把输入图缩放(上采样)到了HR图的分辨率,然后再经过网络,网络8层conv+relu,每层的64个通道。

使用L1 loss,初始学习率为0.001,对loss进行线性拟合,得到斜率和标准差,如果标准差大于斜率乘某个系数,默认1.5,则学习率降10倍,当学习率为10-6时,停止训练。

为了保证训练阶段耗时与输入图像大小无关,每次在成对的LR-HR上截取128x128的大小进行训练。训练时,成对LR-HR的使用概率是不均匀的,分辨率越高的(HR-father与输入图缩放比例接近1),概率越大,因为它越近真实图。

采样几何自集成的方法,输入图的旋转+翻转构成8个图,经过网络后,生成8个图,使用这8个图的中值,而不是均值。并且与back-projection技术相结合,从而使8个输出图像中的每幅图像都经历了几次back-projection迭代,最后也通过back-projection对中值图像进行了校正。

虽然训练在测试阶段完成,但与输入图分辨率无关,对每一种缩放比例,平均耗时54s,采用分辨率逐渐提高,PSNR可以提高0.2左右,使用6个中间比例,每幅图大概5min。测试阶段与分辨率是相关的,但测试耗时相对训练基本可以忽略不计。

Adapting to the Test Image

受监督的CNN SR 算法,如果数据改变(某种特定的缩放核或噪声等)或者缩放比例变化,都需要花费较多时间进行重新训练,泛化能力不强。

图像专用网络的优势是可以在测试时间适应手头测试图像的特定降级/设置。

网络可以在测试时从用户接收以下任何参数:

1.所需的按比例缩小的内核(如果未提供内核,则默认为双三次内核)。

2.所需的SR比例因子。

3.所需的逐步缩放数量增加(速度和质量之间的权衡-默认值为6)。

4.是否在LR和HR图像之间强制执行反向投影(默认值为“是”)。

5.是否在从LR测试图像中提取的每个LR-HR示例对的LR子中添加“噪声”(默认值为“ No”)。

实验发现,添加了少量的高斯噪声( 零均值和小的标准偏差大约5个灰度级的像素)可改善各种降级效果(高斯噪声,斑点噪声,JPEG伪影等)。

 

Experiments & Results

在理想数据集下,ZSSR的效果可以和监督的SOTA媲美,客观数据好于SRCNN,比VDSR相当。在具有非常强内部重复结构的图像中,即使这些LR图像是使用“理想”的监督设置生成的,ZSSR也会超过VDSR,有时甚至超过EDSR +。

 

在非理想数据集下,大大超越了监督的SOTA SR。真实世界图没有理想的SR,进行以下两种实验 :

1.非理想的降尺度内核(偏离双三次内核)

2.低质量的LR图像,高斯噪声,斑点噪,JPEG压缩

两种情况下,客观数据上,都明显优于监督的SOTA SR。

My Opinion

1.ZSSR网络是自监督算法,在非理想条件下,肯定是要比监督的SR算法好的,严格说是监督的由于不匹配,效果太差了。

2.整体耗时是比较长的,特别是分辨率不高的情况下,比其他算法慢,但分辨率很高时,对比其他算法有一定优势,但实际应用中应该还是没法用。

3.下采样还是使用的bicubic,会导致一些高频信号丢失,这样对于有噪声的图像,经过SR之后,噪声会放大,会存在较多artifact,甚至有overshoot,作用到真实世界图像上效果还是不够理想。当然,对于18年那会来说,应该是比较牛的了。

4.Loss设计过于简单,也许使用GAN,感知loss,style loss等,效果会更好。

 

 

PS:如果理解不对之处,请批评指正,谢谢!

 

 

  • 4
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值