图像增强论文Range Scaling Global U-Net for Perceptual Image Enhancement on Mobile Devices阅读笔记

论文介绍:这是ECCV-PIRM2018(Perceptual Image Enhancement on Smartphones Challenge)挑战赛中,图像增强任务第一名的论文,主要用于处理手机等小型移动设备上的图像增强。现有的图像增强方法在亮度、颜色、对比度、细节、噪声抑制等方面对低质量图像进行了改进,但由于移动设备处理速度慢、内存消耗大,很少能解决感知图像增强的问题,已有的一些方法也很难直接迁移到手机上使用。移动设备上的感知图像增强,尤其是智能手机,最近引起了越来越多的工业界和学术圈兴趣,因此本文提出了一个尺度缩放的全局U-Net网络(Range Scaling Global U-Net,RSGUNet)用于移动设备上的图像增强。

作者:美图研究院&清华

项目地址:GitHub - MTLab/rsgunet_image_enhance: Champion solution of the PIRM2018 Challenge on Perceptual Image Enhancement on Smartphones (Track B: Image Enhancement)

概述:

作者在这篇文章中提出一个观点,认为增强图像上产生的视觉伪影很大程度上是因为缺乏全局特征向量的利用,所以作者将全局特征引入到自己的网络中,大大提升了增强性能。


其网络设计主要是用一个U-Net来提取多尺度特征,下采样32倍后用平均池化来获取全局特征向量,然后把该特征向量经过全连接之后与之前的特征concat进行上采样,从而使网络能够同时提取全局和局部特征信息,最后把残差连接改成了用浅层特征与深度特征相乘的range scaling方式来获得最后的增强结果。

Abstract.

智能手机上的感知图像增强,近年来引起了越来越多的工业界和学术界的关注。与数码单镜头反射(DSLR)相机相比,由于各种硬件限制,智能手机上的相机通常拍摄的图像质量较低。在没有附加信息的情况下,提高单个图像的感知质量是一项具有挑战性的任务,特别是当计算必须在移动设备上进行时。本文提出了一种新的基于深度学习的移动设备感知图像增强方法——范围缩放全局U-Net(RSGUNet)。除了利用不同分辨率下的图像特征的U-Net结构外,RSGUNet还学习了一个全局特征向量和一个新的范围缩放层(range scaling layer),以减轻增强图像中的伪影。大量实验表明,该算法不仅能输出主客观质量较高的增强图像,而且推理时间短。我们的提案在智能手机感知图像增强挑战赛(2018年1月)的赛道B中以巨大优势获得第一名。代码可从https://github.com/MTlab/ECCV-PIRM2018获得。

1  Introduction

balabala

为了克服现有的移动设备感知图像增强方法的缺点,我们提出了范围缩放全局U-Net(RSGUNet)。通过一个高效的U-Net主干网,它可以利用不同分辨率的图像特征图。此外,我们推测增强图像中的视觉伪影很大程度上是由于缺乏全局特征向量的利用,因此我们将全局特征向量引入到我们的网络结构中,从而大大提高了增强性能。与传统的基于深度学习的图像处理中的残差学习方法不同,我们提出了一种范围缩放层的学习方法,它将图像相乘而不是相加。这项工作的贡献包括:

1.RSGUNet利用不同分辨率的特征,在速度和质量之间取得了很好的折中;(UNet)

2.融合全局特征向量显著减轻增强图像中的视觉伪影;(平均池化获取全局特征向量)

3.学习范围缩放层代替残差对感知图像增强有很好的效果。(浅层特征图与深层特征相乘)

2  Related Work

图像增强的研究由来已久。现有的方法大致可分为三类,即空间域方法、频域方法和混合域方法。空域方法直接处理像素值,例如直方图均衡化。频域方法处理某些变换域中的分量,例如小波变换。混合域方法结合了空域方法和频域方法。例如,Fan等人用最优高斯滤波器对输入图像进行卷积,用谷值将原始直方图划分为不同的区域,并分别对每个区域进行处理。Rajavel将curvelet变换和直方图匹配技术结合起来,在保持图像亮度的同时增强图像对比度。

最近,卷积神经网络(CNN)在许多低层次的计算机视觉任务中取得了很大的进展,包括超分辨率、去模糊、去噪和图像增强。Yan等人提出了一种神经网络来学习输入图像和增强图像之间的局部颜色变换系数。Enhancenet通过使用感知损失生成具有更真实纹理的图像。受双边网格处理和局部仿射颜色变换的启发,Gharbi等人提出了一种新的神经网络架构,可以在智能手机上实时处理1080p分辨率的视频。Ignatov等人利用残差CNN学习普通照片和DSLR质量照片之间的转换函数,提高了颜色再现和图像清晰度。与以往的方法相比,本文提出了一种新的基于深度学习的图像增强方法。

3  Proposed Method

3.1  Network Architecture

图1说明了所提出的RSGUNet的网络结构。主干是一个U-Net[19],它在不同的层次上逐步对特征图进行降采样,以加速计算。大小为H*W的输入RGB图像在网络的前半部分逐渐下取样到32分之一的大小。特别地,在网络的前半部分中有两个正常卷积层和四个下采样块。每个下采样块由一个下采样卷积层和两个正常卷积层组成。然后,通过在256*H/32∗W/32的张量上平均池化来提取大小为256∗1∗1的全局特征向量。全局特征向量对输入图像的全局特征进行编码,这对于我们的实验中的感知图像增强是非常重要的。

在网络的后半部分,首先将全局特征向量通过全连接映射到128∗1∗1维。然后复制每个元素H/16∗W/16次,我们得到128∗H/16∗W/16的张量与网络前半部分中相同大小的张量进行串联(带串联的对称跳跃连接)。经过三个带跳跃连接的向上采样块之后, 我们得出与输入特征图大小相同尺寸的特征图。在所提出的范围缩放层中,将缩放特征图和输入特征图进行元素相乘,得到输出特征图。最后,在一个反卷积层和另一个卷积层之后网络输出大小为H*W的增强图像。

实验表明,通过学习全局特征向量和范围缩放层,增强图像中的视觉伪影得到了明显的缓解。全局特征向量可以作为一个正则化项来惩罚低分辨率特征中可能导致伪影的任何错误处理。此外,与[2]中的全连接层相比,使用平均池化来提取全局特征向量所需的参数要少得多。除了全局特征向量,范围缩放层还支持像素强度的逐像素缩放。由于一组简单的局部变换足以逼近任何复杂的图像处理管道,因此提出的RSGUNet比传统的残差学习网络具有更高的能力来学习从低质量图像到高质量图像的微妙而复杂的映射。

3.2  Loss Functions

除了网络结构外,损失函数在网络设计中也起着关键作用。在我们的实验中,我们发现L1loss、MS-SSIM loss[21]、VGG loss[22]、GAN loss[3]和总变分损失[23]的组合会使RSGUNet拥有最佳性能。

其中ρ1, ρ2, ρ3,ρ4,ρ5是可调的超参数。

L1+MS-SSIM损失在图像重建中已被证明优于L2loss[21]。L1loss的优点是能够保留更多的图像颜色和亮度信息。MS-SSIM损耗的优点是能够保存更多的高频信息。其定义如下:

其中It表示目标图像,Is表示源图像,Fw(Is)分别表示增强图像。

VGG损失会导致增强图像和目标图像之间出现相似的特征表示。在预先训练的VGG网络的多层上计算如下:

生成对抗网络(GAN)损失可以近似于两幅图像之间的感知距离[24]。因此,最小化GAN损失可以提高增强图像的感知质量。我们的鉴别器网络D是预先训练的,因此GAN损失在生成器fw上定义如下:

总变差(TV)损失可有效抑制高频噪声[23],其定义如下:

4  Experimental Results

4.1  Experiment Settings

我们使用DPED[1]数据集来训练我们的模型。在这个数据集中,每个场景有四张照片,其中三张是用三部不同的手机拍摄的,第四张是用单反相机拍摄的。在我们的实验中,只有iPhone 3GS和DSLR相机(Canon EOS 70D)拍摄的照片用于训练和验证。iPhone拍摄的照片作为输入,DSLR拍摄的相应照片作为ground truth。由于很难在全尺寸上对齐照片,DPED数据集中提供的所有图像都被切割成大小为100∗100的补丁再对齐。实验总共使用了16万个训练补丁和4.3万个验证补丁。为了评估客观和主观表现,我们使用PIRM2018挑战赛提供的400幅图像作为测试图像。对于客观评价,我们使用PSNR、SSIM[25]和推理时间作为度量;对于主观评价,我们使用全尺寸图像(而不是补丁)作为输入,将增强输出与DSLR ground truth进行比较。

我们使用Tensorflow 1.1.0实现了所提出的网络。该网络在单个NVIDIAR GTX1080Ti GPU上训练150000次迭代,批大小为32。使用Adam优化器,学习速率设置为5e−4无衰减。损失函数中的超参数,L1损失为0.05,MS-SSIM损失为500,VGG损失为0.001,GAN损失为10,TV损失为2000。确定超参数值时,所有损失在乘以相应的ρ. 按照PIRM2018挑战的要求,在单个NVIDIAR GTX1060 GPU上使用Tensorflow 1.8.0对训练模型进行评估。

4.2  Ablation Study

Analysis of the Architecture.

如第3节所述,RSGUNet通过两个主要修改改进了原始U-Net:学习全局特征(GF)向量和范围缩放(RS)层。如表1所示,无论是GF还是RS都会导致PSNR和SSIM值的增加,而推断时间的增加可以忽略不计;二者的结合进一步提高了客观绩效。

RS和GF除了具有良好的客观表现外,还显著提高了主观表现。如图2所示,加入GF后增强图像中的颜色分布更加均匀,RS有助于增强图像的自然亮度。

Analysis of Loss Functions.

我们测试了损失函数的不同组合,表2和图3总结了客观结果。以DPED论文[1]的损失策略为基准。为了研究不同损失对增强性能的影响,我们分别采用以下损失策略训练模型:1.基线DPED损失(loss-B);2.将Loss-B中的L2loss替换为L1+MS-SSIM Loss(Loss-L);3.用我们提议的VGG损失(Loss-V)替换Loss-B中的vanilla VGG;4.用L1+MS-SSIM损失(Loss-P)替换Loss-V中的L2loss。

从表2中可以看出,Loss-L极大地增加了PSNR和SSIM值。Loss-V增加SSIM值,但不增加PSNR值。在主观质量方面,Loss-L倾向于使得到的图像变暗,如图3(c)所示,而Loss-V倾向于使得到的图像变亮,如图3(d)所示。Loss-P使增强图像具有最佳的PSNR和SSIM值以及良好的视觉质量,见图3(e)。

4.3  Comparison with the State-of-the-Art Methods

我们将我们的方法与包括SRCNN[10]、DPED[1]和EDSR[12]在内的几种最新方法进行了比较。如表3所示,所提出的RSGUNet在所有三个客观指标(PSNR、SSIM和推理时间)上都优于竞争方法。换言之,所提出的RSGUNet在获得更好的增强质量的同时速度更快。除了良好的客观表现,RSGUNet也有突出的主观表现。如图4所示,通过RSGUNet增强的图像显示的视觉伪影最少。

尽管RSGUNet在大多数图像上都表现得很好,但在一些情况下,增强后的图像看起来比竞争方法的图像更暗或模糊(图5)。最可能的原因是U-Net的下采样操作。然而,在我们的实验中,我们没有观察到RSGUNet增强图像中严重的伪影。

4.4  Results of the PIRM2018 Challenge

我们参加了智能手机感知图像增强(PRIM2018)挑战赛的赛道B(图像增强)。前8名团队的结果如表4所示。拟议中的RSGUNet(Mt.Phoenix团队)在几乎所有指标下排名第一,并以巨大优势赢得冠军。请在上找到比赛的详细情况http://ai-benchmark.com/challenge. html。平均意见得分(MOS)是一种常用的主观评价指标,它反映了增强图像的感知质量。

我们还使用所提出的RSGUNet架构进行了超分辨率任务的实验,但是性能并不是很好。这是因为超分辨率和增强是两项性质不同的任务。例如,在增强中,全局信息对于调整整体外观非常重要,而在超分辨率中,插值严重依赖于局部梯度。

5  Conclusion

我们提出了RSGUNet,一种新的基于CNN的感知图像增强方法。RSGUNet突出的主客观增强性能以及较低的计算复杂度使其非常适合于移动设备上的感知图像增强。在未来,我们希望研究新的网络结构来进行实时图像增强。

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值