【图像超分辨率重建】——EnhanceNet论文阅读笔记

 EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis

基本信息:

期刊:ICCV 2017

摘要:单图像超分辨率是从单个低分辨率输入推断高分辨率图像的任务。传统上,用于该任务的算法的性能是使用逐像素重建措施来测量的,例如峰值信噪比(PSNR),其已被证明与人的感知质量相关性很差。因此,最小化这些度量的算法往往会产生过度平滑的图像,这些图像缺乏高频纹理,尽管产生高PSNR值,但看起来不自然

我们提出了一个新的应用程序的自动纹理合成感知损失相结合,重点是创建逼真的纹理,而不是最优化训练过程中重建图片与地面实况图片的像素差值。通过在对抗性训练环境中使用前馈全卷积神经网络,我们在高放大倍率下实现了图像质量的显著提升。大量的数据集上的实验表明,我们的方法的有效性,产生国家的最先进的结果在定量和定性基准。


1.引言

单图像超分辨率(SISR)在本质上是不适定的,因为不存在唯一解:当下采样时,大量不同的HR图像可以产生相同的LR图像。对于高放大率,这种一对多映射问题变得更糟,使得SISR成为高度复杂的问题。一个关键的问题是大的下采样因子的高频信息的损失,使得超分辨率图像中的纹理区域模糊、过度平滑和外观不自然

这种行为的原因根源于当前最先进的方法所采用的目标函数的选择:大多数系统最小化HR地面实况图像与其从LR观察的重建之间的逐像素均方误差(MSE),然而,这已经被示出与图像质量的人类感知相差甚远[28,54]。

在这项工作中,我们追求一种不同的策略,以提高感知质量的SISR结果。使用完全卷积神经网络架构,我们提出了一种新的修改最近的纹理合成网络相结合的对抗性训练和感知损失,以产生逼真的纹理在大的放大倍率。该方法同时适用于所有RGB通道,并以具有竞争力的速度为自然图像产生清晰的结果。经过适当的损失组合训练,我们在PSNR和使用感知度量方面都达到了最先进的结果。


2.相关工作

SISR经历了基于插值的方法、基于范例的方法、基于字典的方法到基于神经网络的方法。

由于这些模型是通过MSE最小化来训练的,因此由于上述回归到均值的问题,结果往往是模糊的并且缺乏高频纹理。已经为CNN提出了替代感知损失[10,24],其中的想法是将损失从图像空间转移到像VGG [49]这样的对象识别系统的更高级别的特征空间尽管PSNR值较低,但结果更清晰


3.单幅图像超分辨率重建

最小化欧几里得损失来通过多层神经网络近似在当前估计与地面实况图像之间的最小值。虽然这些模型达到了由PSNR测量的优异结果,但是所得到的图像往往看起来模糊并且缺乏原始图像中存在的高频纹理。这是SISR中高模糊性的直接影响:由于下采样从输入图像中去除了高频信息,因此没有任何方法能够希望以逐像素的精度再现所有精细细节。因此,即使是最先进的模型也会学习生成这些区域中所有可能纹理的平均值,以便最小化输出图像的欧几里得损失。


4. 方法

4.1 结构

 将图像进行双三次插值送入网络可能会引起冗余并导致更高的计算成本。对于卷积神经网络,使用卷积转置层1,其对网络内部的特征激活进行上采样。这避免了必须将具有添加的冗余的大图像馈送到CNN中的麻烦,并且允许在LR图像空间中完成大部分计算。

卷积转置容易在输出图像中产生棋盘格伪影,利用最近邻上采样代替卷积转置。并且为了进一步减少伪影的产生,我们在上采样模块后增加了卷积层。并且,训练深度网络,我们发现残差块[20]与堆叠卷积层相比有利于更快的收敛。

4.2 训练和损失函数

我们讨论训练的损失函数,这些损失函数的组合对结果的影响也将在后续进行讨论。

  • 图像空间中的像素损失:

  • 特征空间中的感知损失:est和IHR都首先通过可微函数Φ映射到特征空间中 。这允许模型生成可能不与具有像素级精度的地面实况图像匹配的输出,而是鼓励网络生成具有相似特征表示的图像。

  • 纹理匹配损失:

  •  对抗损失:

5. 评估 

第一节中,我们研究了用先前引入的损失函数的不同组合训练的架构的性能。第二节中,在确定最佳性能模型后,给出了一个全面的定性和定量评价我们的方法

 5.1 不同损失的影响

在ENet-P中使用感知损失产生比ENet-E稍微更清晰的结果,但是它产生伪影。ENet-PA通过在输出中添加高频细节来产生更清晰的图像。然而,网络有时会产生令人不快的高频噪声来平滑区域,并且在某些情况下,它似乎会在随机边缘添加高频,从而导致光晕和锐化伪影。纹理损失有助于ENet-PAT创建局部有意义的纹理,并大大减少了伪影。对于一些图像,即使在4的高放大率下,结果也几乎无法与地面实况区分开。

不出所料,ENet-E产生最高的PSNR,因为它是专门针对该措施进行优化的。虽然ENetPAT产生感知上更真实的图像,但PSNR低得多,因为重建不是像素精确的。

 5.2 与其他方法进行对比

  • 定量结果(PSNR)

  • 物体识别性能

图像超分可以作为其他图像相关任务的预处理步骤,用以提高相关任务的性能。使用除PNSR和SSIM外的其他方法来度量和评估SISR算法,用于评估超分辨率图像的感知质量。为了进行比较,我们使用ResNet-50 [6,20],因为这类模型通过赢得2015年大规模视觉识别挑战赛(ILSVRC)[44]而实现了最先进的性能。利用数据集中的图片进行下采样操作,利用不同的模型进行超分生成的图片送入识别模型,报告正确分类的平均置信度。我们的模型ENet-EA,ENet-PA和ENet-PAT产生更高的感知质量的图像,这反映在较高的分类分数,尽管他们的低PSNR分数。这表明对象识别基准比PSNR更好地匹配人类感知。

  •  感知质量评估

 向受试者显示地面实况图像沿着在4x超分辨率下并排的ENet-E和ENet-PAT的超分辨率结果,并要求受试者选择看起来更类似于地面实况的图像。受试者选择了ENet-PAT 91.0%的时间产生的图像,强调了我们结果的感知质量。

  • 训练和推理速度

我们使用TensorFlow [2]在Nvidia K40 GPU上训练所有模型最多24小时,但收敛速度取决于应用的损失函数组合。虽然没有针对效率进行优化,但我们的网络非常紧凑,在测试时非常快。最终的训练模型大小仅为3.1MB,平均每张图像在9ms(Set5),18ms(Set14),12ms(BSD100)和59ms(Urban100)内以4倍超分辨率处理图像。

6. 讨论,局限性以及今后的工作

我们已经提出了一种架构,该架构能够通过使用欧几里得损失或新颖的训练来通过定量和定性测量产生最先进的结果。对抗性训练、感知损失和新提出的用于超分辨率的纹理转移损失的组合。一旦经过训练,该模型将以具有竞争力的速度在单次向前传递中插入全色图像。

由于SISR是一个严重不适定的问题,一些限制仍然存在。虽然由ENet-PAT产生的图像看起来逼真,但它们在像素基础上与地面实况图像不匹配。此外,对抗训练有时在输出中产生伪影,其大大减少,但没有完全消除与添加纹理损失。

虽然该模型在运行时间方面已经具有竞争力,但未来的工作可能会降低网络的深度,并应用收缩方法来加速模型在高分辨率数据上的实时性能:然后,添加时间一致性的项可以使得模型能够用于视频超分辨率。

7. 个人小结

1.相较于在此之前的SISR算法,以降低超分图像与地面实况图像的逐像素损失作为目标,虽然重建获得了较高的PNSR值,但却避免不了产生过度平滑的图像以及缺少高频的纹理信息。本文采用一种不同的策略,以提高图像重建的感知质量为目标,使用完全神经网络的架构,提出一种纹理合成网络结合的对抗训练和感知损失,尽可能的恢复图像的高频纹理信息,重建更逼真的高频纹理。

2.(补充)对抗训练可以认为是一种数据增强的方式,对原始模型没有要求。其目的在于提高模型的泛化能力。

提高模型的泛化性能是机器学习致力追求的目标之一。常见的提高泛化性的方法主要有两种:

  • 添加噪声,比如往输入添加高斯噪声、中间层增加Dropout以及近来比较热门的对抗训练等,对图像进行随机平移缩放等数据扩增手段某种意义上也属于此列;
  • 是往loss里边添加正则项,比如L1,L2惩罚、梯度惩罚等
     
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值