DeblurGAN-v2: Deblurring (Orders-of-Magnitude) Faster and Better 阅读笔记

主要贡献:
1.提出一种端到端的生成对抗网络(GAN),用单幅图像去模糊DeblurGANv2
2.DeblurGANv2是基于具有双尺度鉴别器的Relativistic GAN
3.特征金字塔网络引入到去模糊中,作为DeblurGAN-v2生成器的核心构建块
4.使用复杂骨干的模块(例Inception-ResNet-v2)可以组成的最先进的去模糊网络(效果好)
5.使用轻量级骨干(例MobileNet),DeblurGAN-v2的速度比最接近的竞争对手快10-100倍,保持较好的去模糊效果,可以实现实时去模糊(速度快)

针对场景:单幅图像盲运动去模糊造成模糊的模糊核不固定
在这里插入图片描述
本算法与其他主流算法的对比
创新总结如下:
**框架层次:**构造了一个新的GAN去模糊框架,首次将原本为目标检测而开发的特征金字塔网络(FPN)引入到图像恢复任务中,对于鉴别器,采用relativistic鉴别器,使用最小二乘损失,并有两个评估全局(图像)和局部(补丁)尺度
**骨干层次:**使用Inception-ResNet-v2主干具有更好的效果(效果好);使用MobileNet具有更快的速度(速度快)
**实验层次:**在效率方面,带有MobileNet-DSC的DeblurGAN-v2比DeblurGAN快11倍,模型大小仅为4mb,实现实时视频去模糊
在这里插入图片描述
特征金字塔去模糊(FPN):首次将特征金字塔网络的思想引入到图像去模糊,本文所设计的FPN包含5个尺度的特征输出,这些特征被下采样到原始输入四分之一大小并拼接作为一个整体(包含多尺度信息),然后连接两个上采样和卷积层以复原到原始图像大小并减少伪影。类似DeblurGAN,引入了全局残差连接。输入图像归一化到[-1,1],在输出部分使用tanh激活以确保生成的图像在相同范围内。FPN除具有多尺度特征汇聚功能外,它还在精度与效率之间取得均衡。(考虑改进的地方:5个尺度改为更多的尺度,激活函数有tanh改为别的试试)
**注意:**FPN与特征提取器的骨干无关,所以可以灵活选择不同的骨干网络

骨干的选择:
性能和效率之间的权衡,新的FPN嵌入式框架[框架层次]与特征提取器骨干[骨干层次]的选择无关,
使用Inception-ResNet-v2骨干来追求强大的去模糊效果,选择ImageNet预训练的主干来传达更多与语义相关的特征[预训练权重来自ImageNet数据集]
使用MobileNetV2骨干追求速度,适合轻量化和高效的去模糊即速度快
(考虑改进的地方:使用其他的轻量化骨干,如shufflenet,efficientnet等)

双刻度RaGANLS鉴别器:
DeblurGAN中使用的是WGAN-GP鉴别器。作者在LSGAN上使用relativistic,创建新的RaGAN-LS损失函数:(提高训练速度和稳定性)
在这里插入图片描述
扩展到全图和局部尺度
作者观察到,对于高度不均匀的模糊图像,尤其是当涉及复杂的物体运动时,“全局”尺度对于鉴别器对于完整的空间信息非常有必要。为了利用全局和局部特征,使用双尺度鉴别器,由一个局部分支组成,一个分支在batch级别上运行,另一个全局分支提供完整的输入图像,这样的DeblurGAN-v2可以更好地处理更大和更复杂的的真实模糊
在这里插入图片描述

3.4训练数据集
**GoPro:**通过平均连续短曝光帧产生模糊图像2103对训练,1111对验证
**DVD:**收集了71个由各种设备,通过平均连续短曝光帧来近似长曝光
**NFS:**由iPhone 6和iPad Pro上的高帧率摄像头拍摄的75个视频组成
对数据集处理:解决不现实的鬼影,将240帧/秒增加到3840帧/秒,进行平均池化,使更平滑和更连续的模糊,在实验中,这种数据准备对PSNR/SSIM没有明显影响,但可以改善视觉质量结果
4.实验评价
(关注两个方面,标准性能指标PSNR/SSIM和推理效率,即单个GPU上每个图像的平均运行时间)
4.1实现细节
10000张用于训练 *(我复现的时候是2103对,可能对结果造成差异)
测试的时候,是在GOPRO数据集上进行的,给出了PSNR指标和SSIM指标和运行的时间
Inception精度高,MobileNet速度快

训练环境:
所有模型在单个Tesla-P100 GPU上进行训练,使用Adam优化器,150次的学习率为10-4,然后再进行150次的学习率线性衰减到10-7。我们将预先训练的骨架权重冻结3次,然后解冻所有权重并继续训练。未预训练的部分用随机高斯初始化,训练需要5天才能完成。该模型是完全卷积的,因此可以应用于任意大小的图像
GoPro数据集的定量评价
将我们的模型与许多研究现状进行了比较:其中一个是Xu等人的传统方法,而其余的是基于深度学习的方法Sun等、DeepDeblur、SRN和DeblurGAN。我们比较了标准性能指标(PSNR, SSIM)和推理效率(在单个GPU上测量的每个图像的平均运行时间)。结果总结于表1。
表1:在GoPro测试数据集上的性能和效率比较,所有模型都在线性图像子集上进行测试(选取经典的去模糊模型进行对比)
在这里插入图片描述
表2:Kohler数据集的PSNR和SSIM比较

在这里插入图片描述
在PSNR/SSIM方面,DeblurGAN-v2 (Inception-ResNet-v2)和SRN排在前2位DeblurGAN-v2 (Inception-ResNet-v2)的PSNR略低,因为它不是在纯MSE损失下训练的,但它在SSIM中优于SRN。DeblurGAN-v2 (inception - resnet -v2)的推理时间比SRN少78%。两个轻量化模型,DeblurGAN-v2 (MobileNet)和DeblurGAN-v2 (MobileNet- dsc),显示ssim(0.925和0.922)与其他两种最新的深度去模糊方法DeblurGAN(0.927)和DeepDeblur(0.916)相当,而速度高达100倍

MobileNet-DSC每张图像的成本仅为0.04s,对于25帧/秒的视频,DeblurGAN-v2 (MobileNet-DSC)是迄今为止唯一能够同时实现(合理)高性能和高推理效率的去模糊方法(0.04s还是接近不了实时,还有很大的改进空间

Kohler数据集的定量评价
评估盲去模糊算法的标准数据集,在这里计算PSNR和SSIM
与GoPro类似,SRN和DeblurGAN-v2 (Inception-ResNetv2)仍然是最好的两个PSNR/SSIM表现,但这次SRN在两者上都略微优于GoPro。然而,请注意,与GoPro案例类似,这个“几乎平局”的结果是在DeblurGAN-v2 (Inception-ResNet-v2)的推理复杂性仅为SRN的1/5的情况下实现的。此外,DeblurGAN-v2 (MobileNet)和DeblurGAN-v2 (MobileNet- dsc)在SSIM和PSNR上都优于Kohler数据集上的DeblurGAN:考虑到前两者的权重要轻得多

图4显示了Kohler数据集上的可视化示例

在这里插入图片描述在这里插入图片描述
表4:Lai数据集去模糊结果的平均主观得分
(这里只是用不同数据集进行评估,量化本项目的结果和其它项目进行对比)
在这里插入图片描述
DeblurGAN-v2 (MobileNet)优于WFA和DVD(单个),同时速度至少快17倍(DVD在960*540分辨率下进行测试,而DeblurGAN-v2在1280 x 720分辨率下进行测试)
在这里插入图片描述
图6:Restore Dataset上的可视化比较示例

4.6. 消融研究与分析(主要研究添加的哪个模块是有用的)
对DeblurGAN-v2管道的特定成分的影响进行了消融研究。从最初的DeblurGAN (ResNet G, local-scale patch D, WGAN-GP +感知损失)开始,我们逐渐在生成器(增加FPN),鉴别器(增加全局尺度)和损失(用RaGAN-LS代替WGANGP损失,并增加MSE项)上注入我们的修改。结果总结在表6中。我们可以看到,我们提出的所有组件都稳步提高了PSNR和SSIM。特别是FPN模块的贡献最大

在这里插入图片描述
作为FPN效率的额外基准,我们尝试创建一个“紧凑”版本的SRN,具有大致相同的FLOPs (456 GFLOPs)来匹配DeblurGAN-v2 InceptionResNet-v2 (411 GFLOPs)。我们将每个EBlock/DBlock中的resblock数量减少了2/3,同时保留了它们的3尺度循环结构。然后,我们比较了GoPro上的DeblurGAN-v2 (Inception-ResNet-v2),其中“紧凑”的SRN仅实现了PSNR = 28.92 dB和SSIM = 0.9324。我们也尝试了通道修剪来减少SRN FLOPs,结果也没有更好
表6:恢复数据集的PSNR/SSIM比较

在这里插入图片描述
**从常规往一般方向推广:**在数据集上往往还没有那么大的说服力,适用性
真实世界的自然图像通常会同时经历多种退化(噪声、模糊、压缩等),作者还研究了DeblurGAN-v2的效果在一般图像恢复任务上。作者合成了一个新的具有挑战性的恢复数据集。我们从GoPRO中拍摄了600张图像,从DVD中拍摄了600张图像,两者都已经带有运动模糊。然后,使用albumentations libraryi进步向这些图像添加高斯和斑点噪声、JPEG压缩和放大伪影。最终,拆分了8000张图像用于训练,1200张用于测试。训练并比较DeblurGAN-v2(Inception-ResNet-v2)、DeblurGANv:2(MobileNet-.DSC)和DeblurGAN。如表6和图6所示,DeblurGAN-v2(Inception-ResNet-v2)实现了最佳的PSNR、SSIM和视觉质量。
在这里插入图片描述
结论:
DeblurGAN-v2是一种功能强大、高效的图像去模糊框架,在定量和定性方面都取得了可喜的成果。DeblurGAN-v2可以在不同的主干之间切换,在性能和效率之间进行灵活的权衡。我们计划将DeblurGAN-v2扩展为实时视频增强,并更好地处理混合降级

  • 15
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值