【图像超分辨率重建】——SRGAN论文阅读笔记

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

基本信息:

期刊:IEEE 2017

摘要:尽管使用更快、更深的卷积神经网络在单图像超分辨率的准确性和速度上取得了突破,但一个核心问题仍然在很大程度上没有解决:当我们以大的放大因子进行超分辨率时,我们如何恢复更精细的纹理细节?基于优化的超分辨率方法的行为主要是由目标函数的选择驱动的。最近的工作主要集中在最小化均方重建误差。所得到的估计具有高峰信噪比,但它们通常缺乏高频细节,并且在感知上不令人满意,因为它们无法匹配在更高分辨率下期望的保真度。在本文中,我们提出了SRGAN,一种用于图像超分辨率(SR)的生成对抗网络(GAN)。据我们所知,它是第一个能够推断出具有4倍放大因子的照片级真实感自然图像的框架。为了实现这一点,我们提出了一个感知损失函数,其中包括一个对抗性损失和内容损失。对抗性损失将我们的解决方案推到自然图像流形使用鉴别器网络,该鉴别器网络被训练为区分超分辨率图像和原始照片真实感图像。此外,我们使用的内容损失动机的感知相似性,而不是相似的像素空间。我们的深度残差网络能够从公共基准测试上的严重下采样图像中恢复照片逼真的纹理。广泛的平均意见得分(MOS)测试显示使用SRGAN在感知质量方面的巨大收益。


1. 引言

欠定SR问题的不适定性对于高的放大因子特别明显,对于高的放大因子,重构的SR图像中的纹理细节通常不存在。MSE(和PSNR)捕获感知相关差异(例如高纹理细节)的能力非常有限,因为它们是基于逐像素图像差异来定义的。超分辨图像与原始真实图像之间的感知差异导致恢复的图像不是照片级真实感。

在这项工作中,我们提出了一个超分辨率生成对抗网络(SRGAN),我们采用了一个具有跳过连接的深度残差网络(ResNet),并将MSE作为唯一的优化目标。与以前的工作不同,我们使用VGG网络的高级特征图[49,33,5]结合鉴别器定义了一种新的感知损失(感知损失包含对抗损失和内容损失),该鉴别器鼓励在感知上难以与HR参考图像区分的解决方案。如图1。

1.1 相关工作

图像超分辨率:

这里我们讨论单幅图像超分辨率重建。

  • 基于预测的方法。是最早的一批解决SISR问题的方法,但他过度简化该问题,通常产生具有过度平滑纹理的解决方案。更强大的方法旨在建立低分辨率和高分辨率图像信息之间的复杂映射,并且通常依赖于训练数据。
  • 基于示例对的许多方法依赖于LR训练补丁,其对应的HR对应物是已知的。
  • 为了重建真实的纹理细节,同时避免边缘伪影。邻域嵌入方法通过在低维流形中找到相似的LR训练块并组合其对应的HR块来对LR图像块进行上采样以进行重建。
  • 基于神经网络的图像超分辨率重建算法显示出了优异的性能。

卷积神经网络的设计:

更深的网络架构可能难以训练,但有可能大幅提高网络的准确性,因为它们允许对非常高复杂性的映射进行建模[49,51]。为了有效地训练这些更深层次的网络架构,批量归一化[32]通常用于抵消内部协变量的偏移。更深的网络架构也已被示出为提高SISR的性能。

损失函数:

最小化MSE鼓励找到似然解的逐像素平均值,通常导致过度平滑而缺少高频纹理信息。不同感知的重构图3:来自自然图像流形的补丁(红色)和使用MSE(蓝色)和GAN(橙色)获得的超分辨率补丁的图示。基于MSE的解决方案由于像素空间中的可能解决方案的像素平均而显得过于平滑,而GAN驱动朝向自然图像流形的重建产生感知上更令人信服的解决方案。

 1.2 贡献

GAN提供了一个强大的框架,用于生成具有高感知质量的看似合理的自然图像。GAN过程鼓励重建向搜索空间的区域移动,该区域具有包含照片真实感图像的高概率,因此更接近自然图像流形。在本文中,我们描述了第一个非常深的ResNet [29,30]架构,使用GAN的概念来形成照片级真实感SISR的感知损失函数。我们的主要贡献是:

  • 我们为图像SR设置了一个新的技术水平,具有高的放大因子(4倍),如通过PSNR和结构相似性(SSIM)测量的,我们的16块深度ResNet(SRResNet)针对MSE进行了优化。
  • 我们提出了SRGAN,这是一个基于GAN的网络,针对新的感知损失进行了优化。在这里,我们用在VGG网络[49]的特征图上计算的损失来替换基于MSE的内容损失,这对像素空间的变化更具不变性[38]。
  • 我们通过对来自三个公共基准数据集的图像进行广泛的平均意见评分(MOS)测试,证实SRGAN是最新的最先进技术,可以很大程度上估计具有高放大因子(4×)的照片级真实感SR图像。

2 方法

在SISR中,目的是从低分辨率输入图像ILR估计高分辨率、超分辨率图像ISR。这里的ILR是其高分辨率对应物IHR的低分辨率版本。高分辨率图像仅在训练期间可用。在训练中,ILR通过将高斯滤波器应用于IHR,随后通过具有下采样因子r的下采样操作来获得。

2.1 对抗性网络结构

该公式背后的一般思想是,它允许训练生成模型G,其目标是欺骗被训练以将超分辨率图像与真实的图像区分开的可微分鉴别器D。通过这种方法,我们的生成器可以学习创建与真实的图像高度相似的解决方案,从而难以通过D进行分类。这鼓励了存在于自然图像的子空间(流形)中的感知上上级的解决方案。这与通过最小化逐像素误差测量(诸如MSE)获得的SR解决方案形成对比。

在我们的非常深的生成器网络G的核心,如图4所示,是具有相同布局的B个残差块。具体来说,我们使用两个卷积层,具有小的3×3内核和64个特征映射,然后是批处理归一化层和ParametricReLU作为激活函数。

 为了区分真实的HR图像从生成的SR样本,我们训练鉴别器网络。使用LeakyReLU激活(α = 0.2)并避免整个网络的最大池化。训练鉴别器网络以解决等式2中的最大化问题。它包含8个卷积层,其中3 × 3滤波器内核的数量不断增加,从64个内核增加到512个内核,增加了2倍,如VGG网络[49]。步长卷积用于每次特征的数量加倍时降低图像分辨率。所得的512个特征图后面是两个密集层和最终S形激活函数,以获得样本分类的概率。

 2.2 感知损失函数

我们的感知损失函数lSR的定义对于我们的生成器网络的性能至关重要。我们设计一个损失函数来评估关于感知相关特征的解决方案。我们将感知损失公式化为内容损失和对抗性损失分量的加权和(感知损失函数包含两个部分,对抗损失和内容损失):后面我们将探讨对抗损失和内容损失的可能选择。

 内容损失:

以下为逐像素MSE损失的计算公式:

 这是目前普遍应用的指导网络进行训练的目标函数。但是也存在着其弊端,即在追求逐像素差值平均时,容易造成过度平滑,导致重建的图像缺少高频的纹理信息。我们采用以一种改进的感知损失函数,将VGG损失(感知损失)定义为重建图像GθG(ILR)和参考图像IHR的特征表示之间的欧几里得距离:

 对抗损失:

除了到目前为止描述的内容损失之外,我们还将GAN的生成组件添加到感知损失中。这鼓励我们的网络倾向于驻留在自然图像流形上的解决方案,通过尝试欺骗鉴别器网络。基于鉴别器DθD(GθG(ILR))在所有训练样本上的概率,将生成损失ISR_Gen定义为:

3. 实验

3.1 数据和相似性度量

我们在三个广泛使用的基准数据集Set 5 [3],Set 14 [69]和BSD 300的测试集BSD 100 [41]上进行了实验。所有实验均在低分辨率和高分辨率图像之间以4×的比例因子进行。这对应于图像像素的16倍减少。为了进行公平比较,所有报告的PSNR [dB]和SSIM [58]测量值都是使用daala软件包1在中心裁剪的y通道上计算的,从每个边界移除4像素宽的条带。

3.2 训练详情以及参数

我们通过使用具有下采样因子r = 4的双三次内核对HR图像(BGR,C = 3)进行下采样来获得LR图像。对于每个小批次,我们随机裁剪不同训练图像的16个96 × 96 HR子图像。

对于优化,我们使用Adam [36],其中β1 = 0.9。SRResNet网络的学习率为10 - 4,更新迭代次数为106次。当训练实际GAN时,我们使用训练的基于MSE的SRResNet网络作为生成器的初始化,以避免不希望的局部最优。所有SRGAN变体都以10 - 4的学习速率进行了105次更新迭代,并以10 - 5的较低速率进行了另外105次迭代。我们交替更新的生成器和鉴别器网络。

3.3 平均意见评分(MOS)检验

具体来说,我们要求26名评分员为超分辨率图像分配从1(质量差)到5(质量好)的积分。评分员在Set 5、Set 14和BSD 100上对每个图像的12个版本进行了评分:最近邻(NN)、双三次、SRCNN [9]、SelfExSR [31]、DRCN [34]、ESPCN [48]、SRResNet-MSE、SRResNet-VGG 22 *(* 未在BSD 100上评级)、SRGAN-MSE *、SRGAN-VGG 22 *、SRGANVGG 54和原始HR图像。因此,每位评估者对以随机方式呈现的1128个实例(19个图像的12个版本加上100个图像的9个版本)进行了评估。

  3.4 内容损失研究

我们研究了不同内容损失选择对基于GAN的网络的感知损失的影响。我们还评估了没有对抗组件的生成网络的性能。

3.5 最终网络的性能

平均值显示为红色标记,其中箱以值i为中心。[4× upscaling]艺术方法。定量结果总结在表2中,并证实SRResNet(在PSNR/SSIM方面)在三个基准数据集上设定了新的技术水平。我们进一步获得了SRGAN和BSD 100上所有参考方法的MOS额定值。表2中所示的结果确认SRGAN以大幅度优于所有参考方法,并且为真实感图像SR设定了新的技术状态。MOS的所有差异(参见表2)在BSD 100上是高度显著的,除了SRCNN对SelfExSR。图5总结了所有收集的MOS额定值的分布。

 4. 讨论以及今后的工作

我们使用MOS测试证实了SRGAN的上级感知性能。我们进一步表明,标准定量测量(如PSNR和SSIM)无法捕获和准确评估人类视觉系统的图像质量[56]。这项工作的重点是超分辨率图像的感知质量,而不是计算效率。

未针对实时视频SR进行优化。较浅的网络有可能在一个小的减少定性性能中提供非常有效的替代品。我们发现,更深的网络(B > 16)可以进一步提高SRResNet的性能,但代价是更长的训练和测试时间。我们发现,由于高频伪影的出现,更深层网络的SRGAN变体越来越难以训练。

当针对SR问题的照片般逼真的解决方案时,特别重要的是内容损失的选择。如图6所示。在这项工作中,我们发现lSR VGG/54产生了感知上最令人信服的结果,我们将其归因于更深的网络层的潜力,以表示远离像素空间的更高抽象[68,65,40]的特征。我们推测,这些更深层的特征图纯粹集中在内容上,而对抗性损失则集中在纹理细节上,这是没有对抗性损失的超分辨率图像与照片级逼真图像之间的主要区别。我们还注意到,理想的损失函数取决于应用。

5. 结论

我们已经描述了一个深度残差网络SRResNet,当使用广泛使用的PSNR测量进行评估时,它在公共基准数据集上设置了一个新的最新技术水平。我们已经强调了这种PSNR聚焦图像超分辨率的一些限制,并引入了SRGAN,它通过训练GAN来增强具有对抗性损失的内容损失函数。使用广泛的MOS测试,我们已经证实,SRGAN重建的大放大因子(4×),由一个相当大的利润,更逼真的重建与国家的最先进的参考方法。

6. 个人总结

在深度残差神经网络SRResNet的基础上进行了改进,提出了一个用于图像超分辨率重建的生成对抗网络,用于重建照片级自然图像。为了实现这个目标,我们对逐像素MSE损失进行了改进,提出感知损失函数,其计算方法是对抗损失和内容损失的加权和,被定义为重建图像和地面实况图像在特征表示上的欧几里得损失。它允许训练生成模型,其目标是欺骗被训练以将超分辨率图像与原始高分辨率图像区分开来的鉴别器,从而使得生成器能够学习创建与原始高分辨率图像相似的解决方案,这样就难以通过鉴别器进行分类,达到重建照片级自然图像的目的。此外,我们使用的内容损失动机的感知相似性,而不是相似的像素空间。对重建出的图片进行平均意见得分MOS检验,也取得了较好的成绩。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值