论文地址:http://www.bmva.org/bmvc/2018/contents/papers/0700.pdf
项目地址:https://github.com/Lvfeifan/MBLLEN
来源:BMVC 2018
作者:北航
abstract
提出了一种基于深度学习的微光图像增强方法。由于难以同时处理包括亮度、对比度、伪影和噪声在内的各种因素,该问题具有挑战性。为了解决这一问题,我们提出了多分支微光增强网络(MBLLEN)。其核心思想是提取不同层次的丰富特征,通过多个子网进行增强,最终通过多分支融合产生输出图像。这样,从不同方面提高了图像质量。通过大量的实验,我们发现我们提出的MBLLEN在很大程度上优于现有的技术。另外,我们还表明,我们的方法可以直接扩展到处理弱光视频。
1 Introduction
balabala
本文借鉴最新的深度学习技术,提出了一种新的微光图像增强方法。该方法的核心是提出的全卷积神经网络,即多分支微光增强网络(MBLLEN)。该模型由特征提取模块(FEM)、增强模块(EM)和融合模块(FM)组成。其思想是:1)通过有限元方法提取不同层次的丰富特征;2)分别用EM对多层次特征进行增强;3)通过FM进行多分支融合得到最终输出。这样,MBLLEN能够从不同的方面改善图像质量,并最大限度地完成微光增强任务。
总的来说,我们的贡献包括三个方面。1) 提出了一种基于深度神经网络的微光图像增强方法。它提高了图像的主客观质量。2) 我们的方法在抑制弱光区域的图像噪声和伪影方面也有很好的效果。3) 我们的方法可以利用时间信息直接扩展到弱光视频上。这些特性使得我们的方法优于现有的方法,并且定量和定性评估都表明我们的方法在很大程度上优于现有的方法。
2 RelatedWork
balabala
3 Methodology
本节介绍了所提出的方法以及所有必要的细节。由于图像内容的复杂性,简单的网络往往难以实现高质量的图像增强。因此,我们以多分支的方式设计MBLLEN。该方法将图像增强问题分解为与不同特征层次相关的子问题,分别求解这些子问题,通过多分支融合产生最终输出。
MBLLEN的输入是低光彩色图像,输出是相同大小的增强的干净图像。整体网络架构和数据处理流程如图2所示。这三个模块,即FEM,EM和FM,将在后面详细介绍。
3.1 Network Architecture
如图2所示,所提出的MBLLEN由三类模块组成:特征提取模块(FEM)、增强模块(EM)和融合模块(FM)。
FEM
它是一个具有10个卷积层的单流网络,每个卷积层使用大小为3×3、步长为1和ReLU非线性的核函数,并且不存在池化操作。第一层的输入是微光彩色图像。每层的输出既是下一层的输入,也是EM对应子网的输入。
EM
它包含多个子网,其数目等于有FEM中的层数。子网的输入是有FEM中某一层的输出,输出是与原始微光图像大小相同的彩色图像。每个子网都有一个对称结构,首先应用卷积,然后进行反卷积。第一个卷积层使用8个大小为3×3、步长为1和ReLU的核函数。然后,采用核尺寸为5×5、步长1和ReLU非线性的三个卷积层和三个反卷积层,核数分别为16、16、16、16、8和3。注意,所有的子网都是同时训练的,但不共享任何学习的参数。
FM
它接受所有EM子网的输出以产生最终的增强图像。我们将EM的所有输出串联在颜色通道维中,并使用1×1卷积核来合并它们。加权后的加权和等于。
Network for video
我们的方法经过简单的修改就可以处理视频增强。1) 让FEM用16个大小为3×3×3的核进行三维卷积而不是二维卷积。第一层的输入是31帧的微光彩色视频。每层输出的前三个维度被发送到EM,其余维度被用作下一个卷积的输入。2) EM被修改为执行3D卷积。3) FM使用原始的微光视频作为融合的附加输入。
3.2 Loss Function
为了从定性和定量两方面提高图像质量,使用常用的误差度量如MSE和MAE是不够的。因此,我们进一步考虑结构信息,提出了一种新的损失函数,包括图像的信息和区域差异,如图3所示,计算公式为:
其中结构损失、上下文损失和区域损失的详细信息如下所示。
Structure loss
这种损失旨在改善输出图像的视觉质量。特别是,微光捕获通常会引起结构畸变,如模糊效应和伪影,这些在视觉上是显著的,但MAE不能很好地处理。因此,我们引入结构损失来衡量增强图像与地面真实的差异,从而指导学习过程。特别的,我们使用著名的图像质量评估算法SSIM[39]和MS-SSIM[38]来构建我们的结构损失。最近的一种方法LLCNN[35]也采用了类似的策略。
我们使用简化形式的SSIM来计算:
其中,µx和µy是像素值的平均值,σ2 x和σ2y是方差,σxy是协方差,c1和c2是防止分母为零的常数。由于页数限制,MS-SSIM的定义可以在[38]中查看。SSIM和MS-SSIM的值范围分别为(−1,1]和[0,1]。最终结构损失定义为LStr=LSSIM+LMS−SSIM。
Context loss
MSE和SSIM等指标只关注图像中的低层信息,同时也需要使用一些更高层的信息来提高图像的视觉质量。因此,我们参考了SRGAN[23]中的思想,并使用类似的策略来指导网络的训练。基本思想是使用内容提取器。然后,如果增强后的图像和地面真实情况相似,则它们从内容提取器得到的相应输出也应该相似。
一个合适的内容抽取器可以是一个训练在大数据集上的神经网络。由于VGG网络[33]表现出良好的结构和良好的行为,我们在我们的方法中选择VGG网络作为内容提取器。特别地,我们根据预先训练的VGG-19网络的ReLU激活层的输出来定义上下文损失。为了测量增强图像和地面真实情况之间的差异,我们计算它们的绝对差异之和。损失的定义如下:
其中E和G是增强图像和地面真实情况,wi、j、Hi、j和Ci、j描述了VGG网络中各个特征图的尺寸。此外,φij表示VGG-19网络中第i个块的第j卷积层获得的特征映射。
Region loss
上述损失函数将图像作为一个整体。然而,对于我们的弱光增强任务,我们需要更多地关注那些弱光区域。因此,我们提出了区域损失,它平衡了弱光和图像中其他区域的增强程度。
为了做到这一点,我们首先提出了一个简单的策略来分离图像中的弱光区域。通过初步的实验,我们发现在所有像素中选择最暗的40%的像素可以很好地近似于弱光区域。人们也可以提出更复杂的方法来选择暗区,事实上在文献中有很多。最后,区域损失定义如下:
其中,EL和GL是增强图像和地面实况的暗光区域,EH和GH是图像的剩余部分。我们建议wl为4,wh为1