【ExposureDiffusion: Learning to Expose for Low-light Image Enhancement】

曝光扩散:学习曝光以增强微光图像

摘要:

以前基于raw图像的微光图像增强方法主要依靠前馈神经网络来学习从微光到正常曝光图像的确定性映射。然而,它们未能捕获关键的分发信息,导致了视觉上不理想的结果。

这项工作通过将扩散模型与基于物理的曝光模型无缝集成来解决这个问题。与必须执行高斯去噪的香草扩散模型不同,通过注入基于物理的曝光模型,我们的恢复过程可以直接从有噪声的图像开始,而不是从纯噪声开始。因此,与香草扩散模型相比,我们的方法获得了显著提高的性能和减少的推理时间。
为了充分利用不同中间步骤的优势,我们进一步提出了一种自适应残差层,当中间结果已经很好地暴露出来时,它可以有效地屏蔽迭代细化中的副作用。
所提出的框架可以与真实配对数据集、SOTA噪声模型和不同的骨干网络一起工作。我们在各种公共基准上评估了所提出的方法,使用不同的暴露模型和骨干进行了一致的改进,取得了有希望的结果。此外,与采用较少参数的较大前馈神经模型相比,该方法对看不见的放大率具有更好的泛化能力和更好的性能。
问题:
关键的分发信息指的是什么,重要细节、结构、纹理、颜色信息等方面的信息
为什么依靠前馈神经网络来学习从微光到正常曝光图像的确定性映射,不能捕获关键的分发信息,
未能捕获关键的分发信息,导致了视觉上不理想的结果?

扩散模型与基于物理的曝光模型无缝集成,扩散模型是那些,物理的曝光模型又是那个,如何集成化
扩散模型
Diffusion Model (扩散模型) 是一类生成模型, 和 VAE (Variational Autoencoder, 变分自动编码器), GAN (Generative Adversarial Network, 生成对抗网络) 等生成网络不同的是, 扩散模型在前向阶段对图像逐步施加噪声, 直至图像被破坏变成完全的高斯噪声, 然后在逆向阶段学习从高斯噪声还原为原始图像的过程.
高斯去噪的香草扩散模型,是什么

自适应残差层
有效地屏蔽迭代细化中的副作用

框架可以与真实配对数据集、SOTA噪声模型和不同的骨干网络一起工作

使用不同的暴露模型和骨干进行了一致的改进,取得了有希望的结果

与采用较少参数的较大前馈神经模型相比,该方法对看不见的放大率具有更好的泛化能力和更好的性能。

1. Introduction

在过去的几年里,基于学习的微光图像增强方法[21,20,16]得到了极大的关注并取得了显著的进展,其中大多数都是在sRGB空间中进行的。最近,raw空间中的增强被证明具有独特的优于sRGB空间[13]。例如,raw图像提供了更高的动态范围,从而在极端黑暗的环境中获得更好的性能。此外,低光和正常曝光的图像之间的线性相关性防止了增强过程中不适当的曝光水平调整。此外,通过排除越来越复杂的图像信号处理管道的影响,raw空间中的噪声建模比sRGB空间中的更直接。在这样的空间中,合成数据和捕获数据之间的域间隙很小,并且用成对的合成图像训练的模型表现出与真实捕获数据相当甚至更好的性能[44,6]。虽然有希望的进展实现了这一点,主流的方法仍然是学习基于前馈神经网络的确定性映射。对于在极端黑暗的环境中捕获的图像,这种一步增强/去噪过程1不能表征分布信息,并且通常获得不期望的结果。例如,可能仍然存在一些残余噪声。此外,现有的工作主要关注更准确的噪声建模。将原始空间中的噪声模型有效地结合到可学习模型中以改进增强的工作仍然未被探索。
最近,基于生成模型的图像恢复方法[24,40,33]在图像恢复任务中表现出吸引人的性能和令人愉悦的感知质量。在这些生成模型中,扩散模型[35,12]因其能够以渐进的方式用任意神经网络对复杂分布进行建模而脱颖而出,并在图像生成和恢复任务中取得了巨大成功[33]。
在扩散模型中已经探索了不同类型的正向过程,例如维纳过程的统一框架[48]。尽管如此,它们不足以准确模拟真实的曝光过程。首先,低光图像自然不是香草扩散过程的中间步骤。因此,反向(去噪)过程需要从纯噪声开始,并且涉及相对大量的推理步骤,这阻碍了实际应用。其次,由于香草扩散模型需要具有去除不同噪声水平的高斯噪声的能力,因此与前馈神经网络相比,它通常需要额外的模型容量。

为了解决上述问题,我们提出了一种新的方法,将原始空间中的噪声模型有效地注入到端到端可学习的渐进模型中,称为ExposureDiffusion。具体来说,我们建议使用渐进共享网络来模拟暴露过程,通过优化所提出的变分上界来最小化模拟过程和实际过程之间的差异。
由于渐进过程的中间步骤都服从基于物理的噪声分布,因此恢复过程可以直接从有噪声的图像开始,而不是从纯噪声开始。这种设计显著有利于二维的微光增强/去噪。首先,所提出的方法不再需要去除高斯噪声,只需要学习真实噪声去噪的过程,从而降低了对模型容量的要求。
其次,所提出的方法大大减少了所需的推理步骤数,这有可能显著有益于实际应用。此外,我们还提出了一种自适应残差层,以动态融合不同噪声区域的不同去噪策略-信号比。当中间结果已经很好地暴露出来时,这种策略有效地屏蔽了迭代精化中的副作用。所提出的方法既适用于成对的真实捕获数据,也适用于具有不同噪声模型的合成数据和不同的骨干网络。实验结果表明,该方法可以与真实/合成曝光过程和骨干网络相结合,实现显著的改进。所提出的方法采用了从噪声到精细的策略,也表现出了优越的泛化能力。

我们的主要贡献总结如下:
•我们提出了第一个基于扩散的模型,用于raw图像空间中的微光图像增强。该过程的建模严格按照物理噪声模型进行启发和构建。这种设计能够从扩散过程的任何中间步骤进行恢复,并消除了对高斯去噪过程的需要。因此,可用模型容量和推理效率显著提高。

•我们进一步提出了一种自适应残差层,以动态地对具有不同信噪比的区域采用不同的去噪策略。当中间结果已经很好地暴露出来时,这种策略有效地屏蔽了迭代精化中的副作用。
自适应残差层目的是什么,动态地对具有不同信噪比的区域采用不同的去噪策略

•在两个公共数据集上的大量实验结果表明,结合最先进的噪声模型/主干,所提出的方法的性能显著提高。此外,与前馈神经网络相比,该方法具有更好的泛化能力,并且具有更少的参数和更快的速度来实现竞争性能。

2. Related works

**微光图像增强。**在过去的几年里,已经提出了大量基于深度学习的微光图像增强方法[49,14,38,11,47,17,16]。这些方法的主流是基于监督学习,即训练从低光图像到正常曝光图像的映射。例如,LLNet[22]提出了一种自动编码器来增强微光图像的可见性。为了获得更好的感知质量,[34,36,25,30]提出利用多尺度特征来更好地学习全局内容和显著结构。Retinex理论也被广泛用作先验知识,以指导反射图和照明图的解纠缠[43,39,43,9]。探索了基于展开/展开的方法[31,51,46],以更好地利用微光图像增强的先验。
最近,正态暴露条件分布的显式建模图像在[40]中进行了探索,显示出优越的感知质量。除了上述sRGB空间中的增强方法外,图像空间中的图像增强由于其独特的优势,近年来逐渐引起人们的关注[13,1,29,5]。当前在原始图像空间中的研究主要集中在噪声建模的真实性[44,50,6,15,42,41],以便合成训练数据可以具有较小的域间隙。具体而言,泊松-高斯[7]是一个基本且广泛使用的噪声模型,它假设噪声包括信号无关的高斯噪声和信号相关的泊松噪声。以下工作主要改进了与信号无关的噪声的建模,例如,对行噪声[44]和暗阴影[6]进行了额外的建模。然而,仍然缺乏探索训练策略,以更好地利用原始空间中退化过程的清晰表述。
**扩散模型。**最近,通过使用退化图像作为条件输入,基于扩散的[35,12]图像恢复模型[45,37]表现出显著的性能。例如,[3]通过使用流形约束为不同的逆问题提出了一个扩散模型。通过改变反向扩散过程,[23]在自由形式的修复中表现出良好的性能。[18] 利用预先训练的扩散模型来执行多个恢复任务,例如超分辨率和去模糊。[33]提出了一种用于超分辨率的条件扩散模型,该模型使用低分辨率图像作为输入的一部分,并以端到端的方式学习整个过程。此外,[32]提出基于条件扩散模型来处理不同的图像到图像任务,并且扩散模型在[8]中被用作即插即用图像先验。虽然取得了有希望的结果,但它们主要集中在超分辨率、去模糊、修复和着色方面,因此合成数据集相对容易获得。用于微光图像增强的扩散模型,特别是基于物理的模型,仍有待探索。此外,一些努力[48,28,10,26]旨在加快采样速度扩散模型的过程。例如,[48]通过减少采样步骤的数量来加快推理速度,[28]使用深度非平衡方法来寻找收敛后的结果。然而,即使对于条件图像恢复任务[10,33],初始状态通常仍然来自纯噪声。

3. Methodology

3.1. Preliminary
raw图像Xt可以公式化如下
在这里插入图片描述
其中λt表示曝光时间,K是整个系统增益,I是与场景辐射成比例的光电子速率,N是所有噪声源的总和。原始图像中噪声总和N的公式可以简化如下
在这里插入图片描述
其中Np是光子散粒噪声,而Nind是与信号无关的噪声。光子散粒噪声服从泊松分布,如下所示
微光图像增强的目标是在给定具有短曝光时间的图像XT的情况下预测正常曝光的图像X0,即λ0>λT。先前工作的主流旨在通过优化由θ参数化的深度网络来最小化恢复图像和参考图像之间的重建损失,如下所示
在这里插入图片描述
其中L可以是任何像素方向的重建损失,例如L1和L2损失。
然而,由于对正常曝光图像分布的假设过于简化,这种训练范式通常会导致输出中残留不自然的伪影[40]。为了同时整合正态曝光图像的可学习条件分布和原始空间中噪声的清晰公式的优势,我们提出了一种新的学习曝光的方法,如下所示。
3.2.学会暴露
为了增强弱光图像XT的
可见性
,我们的目标是学习一个模型FΘ,该模型可以使其参考图像X0在训练数据q(X0,XT)的分布上由Θ参数化的可能性最大化,即。,
在这里插入图片描述
由于难以直接估计图像的似然性,我们进一步公式化pθ(X0|XT)如下,使得最大化Eq[log[pθ(X0|XT)]]等效于最大化联合分布Eq[log[pθ(X0:T)]]的可能性,即最小化所学习的曝光过程和真实曝光过程之间的交叉熵。因此,我们建议最小化pΘ(X0:T)和q(X0:T)之间的分歧的上界,如下所示在这里插入图片描述
其中,Xref是期望的干净图像,即,当等式1中的N是零矩阵时,并且q(X0:T)是曝光过程的真实分布。X0可以近似为如果其曝光时间足够长,则视为外部参照。详细推导可在补充资料中找到。

3.2.2培训策略
我们不需要优化方程7中提出的上限中的第一项,因为我们的目标是学习恢复模型而不是生成模型。对于方程7中的第二项,它计算预测图像pθ(Xt−1|Xt)的分布与实际曝光过程之间的偏差,即曝光时间略长、信噪比(SNR)高于Xt的图像。实际曝光过程q(Xt−1|Xt,Xref)是基于等式2中的噪声模型定义的。2如下
在这里插入图片描述
其中(λt−1-λt)Xrefλref K是泊松分布P的速率。即,光子计数中的增量部分服从泊松分布。对于pθ(Xt−1|Xt)的设计,假设增量部分服从以下泊松分布
在这里插入图片描述
其可以被琐碎地采样如下,
在这里插入图片描述
在定义了DKL中两个项的公式(pθ(Xt−1|Xt)||q(Xt–1|Xt,Xref))后,逐像素重建损失可以优化如下
在这里插入图片描述
其推导可在附录中找到。值得注意的是,Lt的期望是在pθ的分布上计算的,即,具有较短曝光时间的输入图像应该从由θ参数化的分布中采样。所提出的训练和推理过程的细节在算法1、2和图2中。2。
在这里插入图片描述
3.2.3自适应残差层
尽管所提出的算法对网络设计没有固有的限制,但对网络进行特定的修改可以进一步提高其性能。具体而言,我们发现,尽管所提出的推理算法可以全面提高恢复图像的质量,但它可能会增加明亮区域(如灯泡)的误差。也就是说,由于明亮区域中的高信噪比,初始步骤的重建结果可能是最准确的结果,并且可能通过随后的细化而进一步退化。为了解决这个问题,我们提出了一种自适应残差层。具体来说,网络Fθ被设计为同时预测正常曝光的图像Xref、噪声残差R=Xref−λref Xtλt和软掩模M,最终输出Fθ(Xt)如下
在这里插入图片描述
其中,Plot X和Plot R分别是预测的参考图像和残差,并且⌊[是[0,1]剪辑操作。
更具体地说,架构中唯一的变化是输出通道数量的增加。例如,如果原始图像通道的数量为4,则所提出的网络将具有9个通道用于输出,其中包括4个通道用于Plot X,4个通道用作R,以及一个通道用于M。
3.3与扩散模型的比较
在本节中,我们将所提出的算法与扩散模型[35,12,33]进行比较,因为它们都涉及密度估计和渐进细化。差异汇总在表1中。如表所示,所提出的方法具有不同的动机和公式,导致不同的归纳偏差和模型性能。该方法的主要优点如下:首先,在所提出的方法中,每个中间步骤Xt都服从基于物理的噪声分布,而在以前的扩散模型中是不满足的。这种一致性使所提出的模型对不同的噪声水平具有更好的泛化能力,并且不需要花费模型容量来学习高斯去噪。此外,通过从低光图像而不是纯噪声凝视,可以实现更少的推理步骤。此外,与普通扩散模型相比,将累积误差,即q(Xt−1|Xt,Xref)和pθ(Xt–1|Xt)之间的偏差,明确地集成到训练过程中,使所提出的方法能够获得更高的保真度结果。更多细节可在补充材料中找到。

4.实验

4.1实验设置
实施细节。我们在两个广泛使用的原始图像微光增强数据集ELD[44]和SID[1]上评估了所提出方法的性能。具体来说,对于常用的拜耳阵列,SID[1]包含2697对黑暗环境下的原始图像,这些图像是在不同的ISO和放大率下拍摄的,例如,×100、×250和×300。我们对SID[1]数据集使用与[44]相同的分割,并使用其训练集训练所有模型。在这项工作中,ELD[44]用于额外评估模型在不同场景和设备下的泛化能力。对于真实噪声分布的建模,我们采用广泛使用的**P+G模型[7,44]作为基线,**其中信号相关噪声的分布建模为泊松分布,信号相关噪声默认设置为高斯噪声。第4.3节进一步探讨了选择与信号无关的噪声的影响。对于所有实验,我们使用真实捕获的配对数据进行评估。更多细节可在补充材料中找到。
4.2.不同方法的比较。
由于探索原始空间下微光图像增强的网络设计的工作很少,我们包括以下竞争对手进行比较:不需要成对数据进行训练的典型非深度方法,例如BM3D[4]和A-BM3D[27]。利用成对噪声图像进行训练的模型,即Noise2Noise(N2N)[19]。用合成配对数据训练的模型,即P+G[7,44]。具体来说,P+G[7,44]意味着我们使用具有Possion高斯噪声模型的合成图像来训练模型。我们的设置与P+G[7,44]使用相同的设置,例如,相同的噪声模型和几乎相同的网络架构(唯一的区别是输入/输出通道的数量),只是我们的设置是通过所提出的算法进行训练/评估的。由于涉及所提出的自适应残差层对模型复杂度的影响很小4,我们声称它们是相同的架构/主干以保持一致性。表2中报告了对SID[1]的评估结果,表3中报告了对ELD[44]的评估结果。正如我们在这些表中所看到的,即使在不使用配对真实数据的情况下进行训练,基于深度学习的方法也往往比非深度方法获得更好的性能。此外,在相同的条件下,该方法比P+G[7]具有更好的性能噪声模型和骨干网络。一些视觉结果如图3所示。
在这里插入图片描述
图3:在相同的ISP管道之后,室内和室外环境的微光图像增强结果,以获得更好的可视化效果。我们的结果是通过使用与P+G相同的噪声模型和主干来获得的。
在这里插入图片描述

图4:在SID[1]数据集上,使用所提出方法的小型模型(我们的)和基线较大模型之间的比较。所提出的方法可以使用较大模型的大约25%的参数和FLOP来实现更好的性能。即使考虑迭代,所提出的方法的推理时间(表示为(b)中的点大小)仍然比较大的模型更短。
在这里插入图片描述
表2:SID的Sony子集的定量结果。
在这里插入图片描述
表3:ELD[44]数据集的定量结果

4.3.不同噪声模型的结果
为了探索所提出的策略是否与暴露过程的不同建模兼容,我们进一步评估了在SOTA噪声模型[44,6]和成对真实数据合成的合成数据上训练的模型的性能。具体而言,与P-G噪声模型[7]相比,[44]对行噪声进行了额外建模,并进一步细化了信号无关噪声的建模。最近,[6]收集了一组暗帧来校正暗阴影。通过减去预处理流水线中的深色阴影,进一步提高了性能。如表4所示,我们使用的噪声模型越准确,我们获得的性能就越好。基于SOTA噪声模型的模型甚至比在真实配对数据上训练的模型实现了略好的性能。通过使用所提出的方法训练模型,我们实现了所有模型性能的一致改进。结果有力地表明了该模型的有效性和通用性。
4.4.不同主干模型的结果
为了进一步探索所提出的方法是否与不同的模型大小兼容,我们利用不同的骨干网络和模型大小进行了实验。对于骨干网络,广泛使用的UNet[44]back-骨和最新的SOTA骨干NAFNet[2]用于评估。我们还评估了具有不同模型大小的NAFNet[2],以探索不同模型容量的影响。不同主干和型号尺寸的性能如表5所示。如表所示,在不同主干/模型大小的情况下,所提出的方法可以稳定地提高增强结果的图像质量。此外,最显著的改进是对小模型的改进,这使得在移动设备上部署小模型成为可能,并引入所提出的推理算法来提高极端低光情况下的性能。验证如图所示。4,我们发现所提出的方法仅使用较大前馈模型的25%左右的参数和FLOP就可以获得更好的性能。即使我们使用迭代次数为3,它仍然比用于推理的较大迭代更快,并且可以通过使用较少的迭代步骤或在不太暗的情况下不迭代来进一步加快速度。
在这里插入图片描述
表4:用配对真实数据和不同噪声模型训练的模型在SID上的性能[1]。

4.5泛化能力
现有方法的一个挑战是,在基准数据集上更好的性能可能会导致更差的分布外(O.O.D)性能。为了评估所提出的模型的泛化能力,我们在SID数据集[1]的×100任务上训练模型,并评估它们在×250和×300任务上的性能。利用了SOTA噪声模型和网络架构,即PMN[6]和NAFNet[2]。结果如表6所示。如表所示,所提出的方法可以缓解由域间隙引起的性能下降。我们推测原因是,即使一步去噪不够准确,通过涉及稍微多的去噪步骤,也可以缓解性能差距。
在这里插入图片描述
表5:在不同噪声模型和主干下,不使用所提出方法的模型的性能。
在这里插入图片描述
表6:方法对O.O.D任务的泛化能力。模型在×100任务上进行训练,并在×250和×300任务上进行评估。所有模型都使用相同的SOTA噪声模型PMN[6]和骨干NAFNet-2[2]。基线没有配备改进的架构和拟议的培训模式。

4.6.消融研究
不同推理步骤的影响。与之前涉及渐进细化的工作类似,推理步骤的数量是我们需要手动设置的一个关键超参数。因此,我们评估了不同推理步骤的效果,结果如图所示。6。如图所示,在最初的几个步骤中,所有模型的性能都单调增加。然而,当推理步骤数增加到10时,由于推理分布与训练分布之间的不匹配,基线方法的性能明显下降。得益于更好的训练匹配以及测试分布和改进的体系结构,该方法具有更好的初始结果,并且在相对较大的推理步骤下执行相对稳定。值得注意的是,我们评估了每一步的ξXref上的度量,而不是Xt,这更准确地评估了所提出方法的有效性。
在这里插入图片描述
图6:Fθ的不同迭代次数的模型的性能。基线表示模型,不包括所提出的训练范式和改进的体系结构。所有模型都是基于表4(b)中的NAFNet-1主干和ELD[44]噪声模型进行训练的。
在这里插入图片描述
图5:所提出的自适应残差层(ARL)示意图。(d) 以及(e)是迭代细化之后的模型w/o和w/ARL的误差幅度变化的映射。对于高亮区域,例如边界框中的区域,如果没有所提出的ARL,则迭代细化倾向于导致更大的绝对误差值。
自适应残差层。为了更好地理解所提出的自适应残差层的作用,图5中提供了一个例子。如图所示,将放大率乘以微光图像后,微光图像和参考图像的高亮区域几乎相同[13]。如果我们直接预测一个从嘈杂的图像中清除图像。通过引入所提出的自适应残差层,该模型更多地依赖于基于残差的去噪的结果,即方程中的第二项。12,其倾向于预测具有零均值的噪声,使得强度水平在高亮区域中受到的影响较小。如图所示,在没有所提出的ARL的情况下迭代后的结果降低了高光中的保真度,而所提出的方法极大地解决了这个问题。

5. Conclusion
在本文中,我们提出了一种新的raw图像增强策略。具体来说,我们建议利用共享重量网络来模拟基于物理的暴露过程,通过以迭代端到端的方式最小化它们的KL发散。进一步提出了自适应残差层,以减轻由高亮区域中的迭代细化引起的保真度恶化。我们在两个基准上评估了所提出算法的有效性,结果表明,结合真实的配对数据、不同的噪声模型和不同的主干,所提出的方法可以稳定地提高性能。此外,该方法在看不见的放大率下也具有更好的泛化能力。

可以用到rgb图像上吗?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值