R2RNet: Low-light Image Enhancement via Real-low to Real-normal Network

论文链接

github链接

摘要

在弱照明条件下拍摄的图像会严重降低图像质量。解决一系列低光图像的退化问题,可以有效地提高图像的视觉质量和高级视觉任务的性能。在本篇论文中,提出了一种新的基于Retinex的真实低光到真实正常光的网络(R2RNet)用于低光图像增强,该网络包括三个子网:Decom-Net,Denoise-Net,Relight-Net。这三个子网分别用于分解、去噪、对比度增强和细节保持。我们的R2RNet不仅使用图像的空间信息来提高对比度,而且还使用频率信息来保留细节。因此,我们的模型对所有退化图像都取得了更稳健的结果。与以前在合成图像上训练的大多数方法不同,我们收集了第一个大规模的真实世界配对低/正常光图像数据集(LSRW数据集)满足训练要求,使我们的模型在现实世界场景中具有更好的泛化性能。在公开的数据集上进行的大量实验表明,我们的方法在定量和视觉上都优于现有的最先进的技术。此外,我们的结果表明,高级视觉任务(即人脸检测)的性能可以通过使用我们的方法在低光条件下获得的增强结果,可以有效地改进。我们的代码和LSRW数据集是可见的在:https://github.com/abedef2000/R2RNet。

1. 介绍

我们的R2RNet利用了spatial和frequency信息,从而获得了高质量的视觉图像。该网络由三个子网络:Decom-Net、Denoise-Net、Relight-Net。

Decom-Net:在Retinex理论指导下将输入的低光图像分解为照明图(illumination-map)和反射图(reflectance-map,反应图像的内在属性)。产生illumination map。仅利用spatial,提升对比度。

Denoise-Net:将分解结果作为输入,以光照图为约束条件,抑制反射率中的噪声。产生reflectance map。仅利用spatial,如果使用频率信息来抑制噪声,则反射图中的细节会被同时抑制。

Relight-Net:提高图像的对比度和亮度。基于快速傅里叶变换提取图像的频率信息,更好的保留图像中的细节。

我们的网络提升了图像的对比度,保留了图像细节,抑制了噪音。

基于深度学习的模型需要大量的数据用于训练,而且模型的能力与训练图像的质量息息相关,我们收集了图像数据集LSRW用于网络训练。

2. 相关工作

低光图像增强方法:大多数基于学习的方法只关注利用低光图像的空间信息来获取高质量的正常光图像,和结合空间和频域信息进行低光照图像增强可以获得更满意的增强结果。所以我们的网络使用空间信息提高对比度,利用频域信息修复更多图像细节。

去噪方法:将去噪方法作为pre-processing会产生模糊;作为post-processing会造成噪音放大。所以我们的网络将对比度增强和噪音去除同时进行。

低光图像数据集:提出新的数据集LSRW

3. LSRW数据集

一共5650对图像。5600对用于训练,50对用于评估。低光图像可以通过降低ISO并使用较短的曝光时间减少光输入量来获得,而普通图像可以通过使用更大的ISO和更长的曝光时间获得。

在室内场景中获取低光图像时,将增加曝光时间以避免捕捉到极暗的图像。当在户外场景中获得正常光照图像时,曝光时间将减少,以避免捕捉过度曝光的图像。低光照条件的ISO值固定为50,正常光照条件固定为100。我们可以通过改变曝光时间来获得成对的低光/正常光图像。当使用尼康获得低光图像时,曝光时间被限制在1/200到1/80,而普通光图像的曝光时间则被限制在1/80到1/20。当使用华为拍摄低光图像时,曝光时间限制在1/400到1/100,而普通光图像的曝光时间限制为1/100到1/15。

4. 方法

网络框架:可以同时提高对比度、保留更多细节、抑制噪音。

Decom-Net:

基于Retinex的方法的关键是获得高质量的光照图和反射率图,分解结果的质量也会影响后续的增强和去噪过程。因此,设计一个高效的网络来分解弱光照图像是很重要的。残差网络已广泛应用于许多计算机视觉任务中,取得了良好的效果。残差网络得益于跳跃连接结构,在训练阶段可以使深度神经网络更容易优化,不会造成梯度消失或爆炸。受此启发,我们在 DecomNet 中使用多个残差模块 (RM) 以获得更好的分解结果。每个 RM 包含 5 个卷积层组成,内核大小为 {1, 3, 3, 3, 1},内核数为 {64, 128, 256, 128, 64}。我们在快捷连接处添加了一个 64×1×1 的卷积层。每个 RM 之前和之后还有一个 64×3×3 的卷积层。

Decom-Net 每次都采用成对的低/正常光图像(Slow 和 Snormal),并在低光图像和正常光图像共享相同的反射图的指导下学习低光及其对应的正常光图像的分解。在训练期间,不需要提供反射图和光照图的ground truth。只有必要的知识,包括反射图的一致性和光照图的平滑度作为损失函数嵌入到网络中。请注意,正常光图像的光照图和反射图不参与后续训练,仅提供分解的参考。

Denoise-Net:

在得到分解结果后,大多数传统方法和以往基于Retinex理论的基于学习的方法都没有考虑噪声,这将导致最终增强结果受到反射率图中噪声的影响。最近,研究人员设计了有效的模型,可以在增强微光图像对比度的同时抑制噪声。受此启发,我们还设计了一个去噪网络来抑制反射率图中的噪声。与大多数基于学习的方法类似,我们的 Denoise-Net 仅使用图像的空间信息,因为通过抑制反射率图中的高频信号来消除噪声可能会导致内在细节的损失。

U-Net由于其出色的结构设计,在大量的计算机视觉任务中取得了优异的效果。在微光图像增强领域,大量的网络都采用U-net作为其主要架构或组成部分。受residual network的启发,Res-UNet用一个带有残差连接的模块来代替U-Net的每个子模块。然而U-Net和Res-UNet在特征提取阶段使用了多个最大池层,最大池层会导致特征信息的丢失,这是我们不希望的。我们将最大池化层替换为步长卷积层(stride convolutional layers),这将略微增加网络参数,但提高性能。U-Net和Res-UNet都属于浅宽架构(shallow-wide architecture),有人证明了深窄架构(deep-narrow architecture)更有效,因此我们将U-Net的每个子模块替换为RM来构建深窄Res-UNet,本文命名为DN-ResUnet。Denoise网络中使用的RM与Decom网络中的RM略有不同。卷积的数量保持在128而不增加。我们在网络的前两层使用扩张卷积(dilated convolution)来提取更多的特征信息。如图5所示,通过我们的去噪获得的照明图在抑制噪声的同时保留了原始图像的细节。

Relight-Net:

在得到分解结果后,需要改进光照图的对比度以获得较高的视觉质量结果,这是Relight-Net设计的目的受空间和频率信息组合在其他图像恢复任务中恢复高质量清晰图像的有效性的启发,我们的Relight-Net由两个模块组成:对比度增强模块(CEM,Contrast Enhancement Module)细节重建模块(DRM,Detail Reconstruction Module)。CEM利用空间信息进行对比度增强,其结构类似于Denoise-Net,我们还利用了多尺度融合,在扩展路径中连接每个反卷积层(deconvolutional layer)的输出,以减少特征信息的损失。DRM基于傅立叶变换提取频率信息去恢复更多的细节。傅立叶变换旨在获得信号在频域中的分布。数字图像也是一种信号,傅立叶变换可以将图像从空间域转换为频率域,而傅立叶逆变换可以将图像由频率域转换为空间域。因此,我们可以通过傅立叶变换获得图像的光谱信息。高频信号代表图像中强烈的变化内容,即细节或噪声,低频信号代表不频繁变化的平滑变化内容,如背景。我们可以通过增强图像中的高频信号来恢复更多的细节,从而从退化的图像中覆盖清晰的图像。

原始的傅里叶变换非常耗时,因此我们在本文中使用快速傅里叶变换。在傅里叶变换之后,我们将得到一个与原始图像大小相同的矩阵。矩阵中的点描述了图像的频域信息。每个点都是一个复数 A + jB,其模量 √A2 + B2 描述了幅度,其方向 arctan B/A 描述了相位角。如果我们想利用图像的频域信息来实现细节重建,我们需要处理得到的复杂矩阵。Chiheb等人提出了关键原子分量、复卷积、复批归一化和复值激活,形成复值深度神经网络,并在许多计算机视觉任务和音频相关任务上实现了最先进的性能。复卷积通过复值向量 h = x + jy 对复滤波器矩阵 W = A + jB 进行卷积,其中 A 和 B 是实值矩阵,x 和 y 是实值向量。在将向量 h 与滤波器 W 进行卷积后,我们可以得到 W *h = (A∗x−B∗y)+i(B∗x+A∗y)。复Relu (CRelu)在神经元的实部和虚部上使用单独的ReLUs,即CReLU (W) = ReLU (A)+iReLU (B)。因此,我们选择了复杂的卷积和 CRelu 来形成我们的 DRM,以便我们可以增加频域的幅度和相位信息。

我们的DRM由两个空间-频率-空间转换块(SFSC块)和一个频率信息处理块(FIP块)组成。SFSC块旨在聚合频域和空间域信息流。SFSC 块首先使用第一个 Resblock 处理空间域中的特征,并使用快速傅里叶变换将输出特征转换为频域。随后,利用复Resblock处理频域信息,最后利用傅里叶反变换将频域信息转化为空间域,使空间域和频域信息交换最大化。FIP块用于模拟高通滤波器来增强图像边缘轮廓,实现细节重建。FIP块的输入包含特征级和图像级频率信号,以减少空间域和频域信息之间的转换造成的信息丢失。特征级信号表示 SFSC 块的输出,图像级信号可以通过基于快速傅里叶变换将输入图像直接映射到频域来获得。CEM 和 DRM 的输出将组合为增强的光照图。请注意,DRM 和 CEM 的输出通道数为 64,因此我们添加了一个 3×3 卷积层和 1×1 卷积层进行降维。Relight-Net的架构如图4。

Relight-Net的输入是Decom-Net得到的光照图(Ilow)和Denoise-Net得到的反射率图(ˆRlow),输出为增强光照图(ˆIlow)。最后,将去噪后的反射率图和增强后的光照图按元素相乘组合为最终结果,可以描述为:ˆSlow =ˆIlow◦ˆRlow。我们的方法得到的分解结果如图所示。DenoiseNet得到的反射率图在抑制噪声的同时保留了原始图像的细节,Relight-Net正确地改善了光照图的对比度,保留了更多的细节。

损失函数

每一个都有:内容损失(content loss)和感知损失(perceptual loss)组成

Decomposition loss:

内容损失、感知损失

使用L1作为内容损失:

我们根据从VGG-16预训练模型中提取的特征计算感知损失,与之前方法不同,我们采用激活曾之前而不是之后的特征。

Denoise loss:

内容损失、感知损失

Relight loss:

内容损失、感知损失、细节重建损失

5. 实验

补充细节

epoch:20,        LSRW dataset,        Adam optimizer,        \beta_{1} = 0.9,       \beta_{_{2}}= 0.999,        batch size = 4,        patch size = 96,        

 lr = 0.001,使用学习率衰减策略,在10个eopchs后变为0.0001。

在真实数据集上与最流行的方法对比

与现存的先进方法对比:MF、Dong、NPE、SRIE、BIMEF、MSRCR、LIME、RetinexNet、DSLR、MVLLEN、EnlighrenGAN、Zero-DCE。

公开的数据集:LOL、LIME、DICM、NPE、MEF、VV。

需要成对图像。表2,图6,提高了局部和全局对比度,由更清晰的细节,抑制噪音。

仅有低光图像。表3,图7。

用户研究

10个参与者评估增强效果,在对比度、伪影、噪声、细节、颜色方面。图8.

消融研究

1.CEM和DRM的有效性:结合空间和频率信息比单独使用可以获得更好的结果。

2.deep-shallow架构的有效性

3.损失函数的设置:结果验证我们损失函数设置的合理性。

用于人脸检测的预处理

1.DARK FACE dataset包括6000张训练数据和100张测试数据。

2.采用两种最先进的人脸检测方法:RetinaFace、DSFD,将我们的模型作为预训练步骤。

3.提高了平均精度(AP,average precision):

(DSFD+Low-light image)17.12%        ->        (DSFD+R2RNet)33.98%

(RetinaFace+Low-light image)15.28%        ->        (RetinaFace+R2RNet)15.97%

4.说明了我们的方法处理产生视觉上令人愉快的结果外,还可以提高高级视觉任务的性能。

6. 结论

提出R2RNet

LSRW数据集

实验结果表明我们的方法大大优于最先进的方法

参考链接

  • 26
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值