DeblurGAN-v2: Deblurring (Orders-of-Magnitude) Faster and Better 阅读笔记

最新推荐文章于 2025-03-03 10:09:58 发布

人间烟火_0528

最新推荐文章于 2025-03-03 10:09:58 发布

阅读量1.6k

点赞数 15

分类专栏： # 去模糊方向文章标签：笔记深度学习 gan pytorch

本文链接：https://blog.csdn.net/weixin_45926697/article/details/135705441

版权

去模糊方向专栏收录该内容

16 篇文章

订阅专栏

主要贡献：
1.提出一种端到端的生成对抗网络（GAN），用单幅图像去模糊DeblurGANv2
2.DeblurGANv2是基于具有双尺度鉴别器的Relativistic GAN
3.特征金字塔网络引入到去模糊中，作为DeblurGAN-v2生成器的核心构建块
4.使用复杂骨干的模块(例Inception-ResNet-v2)可以组成的最先进的去模糊网络（效果好）
5.使用轻量级骨干(例MobileNet)，DeblurGAN-v2的速度比最接近的竞争对手快10-100倍，保持较好的去模糊效果，可以实现实时去模糊（速度快）

针对场景：单幅图像盲运动去模糊（造成模糊的模糊核不固定）
在这里插入图片描述
本算法与其他主流算法的对比
创新总结如下：
**框架层次：**构造了一个新的GAN去模糊框架，首次将原本为目标检测而开发的特征金字塔网络(FPN)引入到图像恢复任务中，对于鉴别器，采用relativistic鉴别器，使用最小二乘损失，并有两个评估全局(图像)和局部(补丁)尺度
**骨干层次：**使用Inception-ResNet-v2主干具有更好的效果（效果好）；使用MobileNet具有更快的速度（速度快）
**实验层次：**在效率方面，带有MobileNet-DSC的DeblurGAN-v2比DeblurGAN快11倍，模型大小仅为4mb，实现实时视频去模糊
在这里插入图片描述
特征金字塔去模糊（FPN）：首次将特征金字塔网络的思想引入到图像去模糊，本文所设计的FPN包含5个尺度的特征输出，这些特征被下采样到原始输入四分之一大小并拼接作为一个整体(包含多尺度信息)，然后连接两个上采样和卷积层以复原到原始图像大小并减少伪影。类似DeblurGAN，引入了全局残差连接。输入图像归一化到[-1,1]，在输出部分使用tanh激活以确保生成的图像在相同范围内。FPN除具有多尺度特征汇聚功能外，它还在精度与效率之间取得均衡。（考虑改进的地方：5个尺度改为更多的尺度，激活函数有tanh改为别的试试）
**注意：**FPN与特征提取器的骨干无关，所以可以灵活选择不同的骨干网络

骨干的选择：
性能和效率之间的权衡，新的FPN嵌入式框架[框架层次]与特征提取器骨干[骨干层次]的选择无关，
使用Inception-ResNet-v2骨干来追求强大的去模糊效果，选择ImageNet预训练的主干来传达更多与语义相关的特征[预训练权重来自ImageNet数据集]
使用MobileNetV2骨干追求速度，适合轻量化和高效的去模糊即速度快
（考虑改进的地方：使用其他的轻量化骨干，如shufflenet，efficientnet等）

双刻度RaGANLS鉴别器：
DeblurGAN中使用的是WGAN-GP鉴别器。作者在LSGAN上使用relativistic,创建新的RaGAN-LS损失函数：（提高训练速度和稳定性）
在这里插入图片描述
扩展到全图和局部尺度
作者观察到，对于高度不均匀的模糊图像，尤其是当涉及复杂的物体运动时，“全局”尺度对于鉴别器对于完整的空间信息非常有必要。为了利用全局和局部特征，使用双尺度鉴别器，由一个局部分支组成，一个分支在batch级别上运行，另一个全局分支提供完整的输入图像，这样的DeblurGAN-v2可以更好地处理更大和更复杂的的真实模糊
在这里插入图片描述

3.4训练数据集
**GoPro：**通过平均连续短曝光帧产生模糊图像2103对训练，1111对验证
**DVD：**收集了71个由各种设备，通过平均连续短曝光帧来近似长曝光
**NFS：**由iPhone 6和iPad Pro上的高帧率摄像头拍摄的75个视频组成
对数据集处理：解决不现实的鬼影，将240帧/秒增加到3840帧/秒，进行平均池化，使更平滑和更连续的模糊，在实验中，这种数据准备对PSNR/SSIM没有明显影响，但可以改善视觉质量结果
4.实验评价
（关注两个方面，标准性能指标PSNR/SSIM和推理效率，即单个GPU上每个图像的平均运行时间）
4.1实现细节
10000张用于训练 *（我复现的时候是2103对，可能对结果造成差异）
测试的时候，是在GOPRO数据集上进行的，给出了PSNR指标和SSIM指标和运行的时间
Inception精度高，MobileNet速度快

训练环境：
所有模型在单个Tesla-P100 GPU上进行训练，使用Adam优化器，150次的学习率为10-4，然后再进行150次的学习率线性衰减到10-7。我们将预先训练的骨架权重冻结3次，然后解冻所有权重并继续训练。未预训练的部分用随机高斯初始化，训练需要5天才能完成。该模型是完全卷积的，因此可以应用于任意大小的图像
GoPro数据集的定量评价
将我们的模型与许多研究现状进行了比较：其中一个是Xu等人的传统方法，而其余的是基于深度学习的方法Sun等、DeepDeblur、SRN和DeblurGAN。我们比较了标准性能指标(PSNR, SSIM)和推理效率(在单个GPU上测量的每个图像的平均运行时间)。结果总结于表1。
表1：在GoPro测试数据集上的性能和效率比较，所有模型都在线性图像子集上进行测试（选取经典的去模糊模型进行对比）
在这里插入图片描述
表2:Kohler数据集的PSNR和SSIM比较

在这里插入图片描述
在PSNR/SSIM方面，DeblurGAN-v2 (Inception-ResNet-v2)和SRN排在前2位DeblurGAN-v2 (Inception-ResNet-v2)的PSNR略低，因为它不是在纯MSE损失下训练的，但它在SSIM中优于SRN。DeblurGAN-v2 (inception - resnet -v2)的推理时间比SRN少78%。两个轻量化模型，DeblurGAN-v2 (MobileNet)和DeblurGAN-v2 (MobileNet- dsc)，显示ssim(0.925和0.922)与其他两种最新的深度去模糊方法DeblurGAN(0.927)和DeepDeblur(0.916)相当，而速度高达100倍

MobileNet-DSC每张图像的成本仅为0.04s，对于25帧/秒的视频，DeblurGAN-v2 (MobileNet-DSC)是迄今为止唯一能够同时实现(合理)高性能和高推理效率的去模糊方法（0.04s还是接近不了实时，还有很大的改进空间）

Kohler数据集的定量评价
（评估盲去模糊算法的标准数据集，在这里计算PSNR和SSIM）
与GoPro类似，SRN和DeblurGAN-v2 (Inception-ResNetv2)仍然是最好的两个PSNR/SSIM表现，但这次SRN在两者上都略微优于GoPro。然而，请注意，与GoPro案例类似，这个“几乎平局”的结果是在DeblurGAN-v2 (Inception-ResNet-v2)的推理复杂性仅为SRN的1/5的情况下实现的。此外，DeblurGAN-v2 (MobileNet)和DeblurGAN-v2 (MobileNet- dsc)在SSIM和PSNR上都优于Kohler数据集上的DeblurGAN：考虑到前两者的权重要轻得多

图4显示了Kohler数据集上的可视化示例

在这里插入图片描述
表4：Lai数据集去模糊结果的平均主观得分
（这里只是用不同数据集进行评估，量化本项目的结果和其它项目进行对比）

DeblurGAN-v2 (MobileNet)优于WFA和DVD(单个)，同时速度至少快17倍(DVD在960*540分辨率下进行测试，而DeblurGAN-v2在1280 x 720分辨率下进行测试)
在这里插入图片描述
图6：Restore Dataset上的可视化比较示例

4.6. 消融研究与分析（主要研究添加的哪个模块是有用的）
对DeblurGAN-v2管道的特定成分的影响进行了消融研究。从最初的DeblurGAN (ResNet G, local-scale patch D, WGAN-GP +感知损失)开始，我们逐渐在生成器(增加FPN)，鉴别器(增加全局尺度)和损失(用RaGAN-LS代替WGANGP损失，并增加MSE项)上注入我们的修改。结果总结在表6中。我们可以看到，我们提出的所有组件都稳步提高了PSNR和SSIM。特别是FPN模块的贡献最大

在这里插入图片描述
作为FPN效率的额外基准，我们尝试创建一个“紧凑”版本的SRN，具有大致相同的FLOPs (456 GFLOPs)来匹配DeblurGAN-v2 InceptionResNet-v2 (411 GFLOPs)。我们将每个EBlock/DBlock中的resblock数量减少了2/3，同时保留了它们的3尺度循环结构。然后，我们比较了GoPro上的DeblurGAN-v2 (Inception-ResNet-v2)，其中“紧凑”的SRN仅实现了PSNR = 28.92 dB和SSIM = 0.9324。我们也尝试了通道修剪来减少SRN FLOPs，结果也没有更好
表6：恢复数据集的PSNR/SSIM比较

在这里插入图片描述
**从常规往一般方向推广：**在数据集上往往还没有那么大的说服力，适用性
真实世界的自然图像通常会同时经历多种退化(噪声、模糊、压缩等)，作者还研究了DeblurGAN-v2的效果在一般图像恢复任务上。作者合成了一个新的具有挑战性的恢复数据集。我们从GoPRO中拍摄了600张图像，从DVD中拍摄了600张图像，两者都已经带有运动模糊。然后，使用albumentations libraryi进步向这些图像添加高斯和斑点噪声、JPEG压缩和放大伪影。最终，拆分了8000张图像用于训练，1200张用于测试。训练并比较DeblurGAN-v2(Inception-ResNet-v2)、DeblurGANv:2(MobileNet-.DSC)和DeblurGAN。如表6和图6所示，DeblurGAN-v2(Inception-ResNet-v2)实现了最佳的PSNR、SSIM和视觉质量。
在这里插入图片描述
结论：
DeblurGAN-v2是一种功能强大、高效的图像去模糊框架，在定量和定性方面都取得了可喜的成果。DeblurGAN-v2可以在不同的主干之间切换，在性能和效率之间进行灵活的权衡。我们计划将DeblurGAN-v2扩展为实时视频增强，并更好地处理混合降级