论文阅读《A Physics-based Noise Formation Model for Extreme Low-light Raw Denoising》CVPR2020

论文阅读《A Physics-based Noise Formation Model for Extreme Low-light Raw Denoising》

目录

论文阅读《A Physics-based Noise Formation Model for Extreme Low-light Raw Denoising》

摘要

1、介绍

2、相关工作

3、基于物理的噪声模型

3.1 传感器RAW图像形成

3.2传感器噪声评价

4. 极低光去噪(ELD)数据集

5、实验

5.1实验设置

5.2SID Sony数据集的结果

5.3对我们的ELD数据集的结果

6、结论

Code:论文代码链接


摘要

由于缺乏丰富以及真实的数据,基于学习的单图像去噪算法不能很好的推广到RAW图像,并且RAW图像与训练所用的数据不同。尽管可以通过用于噪声合成的异方差高斯模型来缓解数码相机电子元件导入的噪声的问题。但是这种情况在光线较低的情况下很难去做。为了解决这个这个问题,提出了一种基于CMOS光电传感器的特性,从而使得我们能够合成更匹配的真实样本。鉴于提出的噪声模型我们另外提出了一种校准方法 。现有的现代数码相机的噪声参数,这对于任何新设备而言都是简单且可复制的。 我们通过入新的方法,系统地研究采用现有方案训练的神经网络的可推广性,弱光降噪数据集,涵盖来自不同品牌的许多现代数码相机。 广泛的经验结果共同表明,通过利用我们提出的噪声形成模型,网络可以像它已经用丰富的真实数据进行了训练,这表明噪声形成模型的有效性。

1、介绍

光是摄影中不可缺少的部分,夜晚由于光子数量有限和不可避免的噪声问题,因此低光环境下,对摄影拍照提出了更严格的要求。我们自然的反应是扩大光圈设置,延长曝光时间或者是打开手电筒进而获取更多的光。但是每一种方法都需要权衡,以及光圈太大可能会导致较小的景深,长时间曝光会导致场景变化或者摄像移动,闪光会引起颜色差别,同时方法只对附近物体有用。

弱光成像的一种实际解决方法是使用连拍捕获,其中出现一连串图像对齐并融合以增加信噪比(SNR)。 但是,连拍可能很脆弱,在捕捉动态影像时会出现重影,车辆,人等存在的场景中。一种新兴的替代方法是采用神经网络自动学习从低光噪点图像到长时间曝光图像的映射。 但是,这样的深度学习方法通常需要大量标记的训练数据,类似于真实世界的低光照片。 从各种现代相机设备中收集丰富的高质量培训样本非常费力且昂贵。

图1:来自于黑暗中(SID)数据集[9]的图像,我们在哪里展示(a)短时嘈杂的输入图像; (F)长时间曝光参考图像; (b-e)联合国教科文组织的产出[51]训练了(b)由同高斯高斯噪声模型(G)生成的合成数据,(c)由信号相关的异方差高斯噪声模型(G + P)[22],(d)[9]的成对实数据和(e)生成的合成数据通过我们提出的噪声模型 所有图像均从原始bayer空间转换为sRGB以进行可视化;

相反,合成数据简单,丰富且廉价,但其有效性在很大程度上取决于如何准确地采用了噪声形成模型。 异方差高斯噪声模型[22],而不是常用的同调函数,近似白天或中度弱光设置下会发生真正的噪音[5、27、28]。 但是,它无法描绘出照度非常低的情况下传感器噪声的全貌。 一个图1中显示了示例性示例,其中令人讨厌的条带模式伪像(在昏暗的环境中加剧的未建模噪声成分)变得人眼清楚可见。

在本文中,为了避免噪声模型影响图像处理管道(ISP)转换为sRGB,我们主要关注的是RAW图像的噪声形成模型,我们提出了基于物理物理的低光RAW图像降噪模型,明确了利用CMOS的特性光电传感器可以更好的匹配噪声形成的物理原理,如图2所示,我们提出的合成管道推导通过考虑光子如何经历几个阶段来从电子成像的固有过程中得出。它以精细的方式对传感器噪声进行建模,其中包括许多噪声诸如光子散粒噪声,像素电路噪声和量化噪声。此外,我们提供了一种校准可用数码相机的噪声参数的方法。为了研究噪声模型的一般性,我们还引入了极端的弱光降噪(ELD)各种相机设备拍摄的数据集以进行评估我们的模型。大量实验表明,网络仅使用噪声模型中的综合数据进行训练可以达到能力,就好像经过了丰富的训练真实数据。

贡献总结如下:

  • 我们制定了一个噪声模型来综合现实可以匹配真实数据质量的嘈杂图像在极端弱光条件下。
  • 我们提出一种噪声参数校准方法,可以使我们的模型适应给定的相机。
  • 我们使用各种相机设备收集数据集验证我们模型的有效性和普遍性。

2、相关工作

从单个图像中去除噪声是计算机视觉和图像处理领域中一个经过广泛研究但仍未解决的问题图像处理。单图像去噪方法通常依赖于这样的假设,即信号和噪声都表现出特定的统计规律,因此它们可以与单个观察结果分开。编制分析
与图像先验相关的正则化器(例如,平滑度,因此,稀疏性,自我相似性,低等级)起着至关重要的作用降噪算法在传统设计流程中的作用。在现代,大多数单个图像去噪算法完全由数据驱动,由深层神经网络组成,这些网络隐式学习从统计规律推断干净图像的统计规律嘈杂的同行。虽然这些基于学习的方法简单而强大由于实际限制,通常在合成图像数据上进行训练。最广泛使用的加性高斯白噪声模型与实际评估方案有很大的出入,导致具有真实噪声的照片性能显着下降。

 图2:电子成像管道的概述以及噪声源的可视化以及每个阶段

为了消除合成图像和真实图像之间的差异,还需要进行训练来收集成对的真实数据,尽管已经取得了较好的数据结果,但是使用地面标签足够的真实数据非常费时与麻烦。最近的一些的论文利用配对的方法或者单个噪声图像作为训练数据。而不是成对的噪声无噪声图像。

另一项研究重点是改善合成训练数据的真实性,从而避免了从相机获取真实数据时遇到的困难。通过考虑
光子到达统计(“散粒”噪声)和传感器读数效应(“读”噪声)均采用的工作依赖信号的异方差高斯模型表征原始传感器数据中的噪声特性。最近,Wang等。 提出了一种噪声模型,考虑动态条纹噪声,色彩通道异质性和削波效应,以模拟高灵敏度
真实的弱光彩色图像上出现噪点。同时,提出了基于流的生成模型,即Noiseflow [1],该模型使用具有可控制密度的潜变量来表示实际噪声的分布1。但是,这些方法过分简化了现代传感器成像流程,特别是相机电子设备引起的噪声源在电子成像领域已被广泛研究。在这项工作中,我们提出了基于物理的噪声形成源自电子基本过程的模型成像以合成嘈杂的数据集,并表明对真实数据的去噪性能有了较大的改善,特别是在极低的照度下。

3、基于物理的噪声模型

数字传感器RAW图像D的创建通常可以通过线性模型来表示:

其中I是与场景照射成比例的光电子数量,K表示由模拟和数字增益组成的整体系统增益,N表示物理上引起的所有噪声源的总和。通过灯光或照相机。我们专注于在极端弱光条件下的原始图像降噪问题。在这个在上下文中,N的特征按照超越现有噪声模型的传感器物理过程。推导解决这种噪声的最佳正则化器是不可行,因为没有针对此类噪声的分析求解器。因此,我们依靠基于学习的神经网络管道来隐式地从中学习规律性。数据。为此任务创建训练样本需要仔细考虑原始传感器数据的特征。在下面,我们首先描述详细的过程传感器原始图像的物理形成以及在整个过程中引入的噪声源。一个此过程的概述如图2所示。

3.1 传感器RAW图像形成

我们的光电传感器模型主要基于CMOS传感器,这是主要的成像传感器如今。 我们考虑电子成像管道入射光是如何从光子转换成电子的,从电子到电压,最后从电压到数字数字,以模拟噪音。

从光子到电子:在曝光过程中,以光子形式的入射光击中感光元件像素区,释放出与光强成比例的光子产生电子(光电子)。由于光的量子性质,在收集的电子数量上存在不可避免的不确定性。这种不确定性对这个电子数施加了泊松分布,如下所示:

其中Np为光子射波噪声,P为泊松分布。这种类型的噪声取决于光的强度,也就是信号。散粒噪声是一个基本的限制,不能避免,即使是一个完美的传感器。在光子到电子阶段还引入了其他噪声源,如许多文献报道的光响应不均匀性和暗电流噪声。在过去的十年中,CMOS传感器设计和制造的技术进步,例如传感器暗电流抑制,可以导致具有更低暗电流和更好的光响应均匀性的新一代数字单反(DSLR)相机。因此,我们假设一个恒定的光响应,并将暗电流噪声Nd的影响吸收到读噪声Nread中,这将在下文中介绍。

从电子到电压:在每个位置收集电子后,通常会将电子集成、放大,并在曝光时间结束时读出可测量的电荷或电压。电子电压阶段的噪声取决于所使用的电路设计和处理技术,因此被称为像素电路噪声。它包括热噪声、复位噪声[36]、源跟随噪声和条带型噪声。这些噪声成分的物理来源可以在电子成像文献中找到。例如,源跟踪噪声归因于硅晶格中随机捕获和发射载流子的陷阱的作用;带型噪声与CMOS电路读出型和放大器有关。通过利用这一知识,我们在模型中考虑了热噪声Nt、源跟踪噪声Ns和带型噪声Nb。Nb的噪声模型将在后面介绍。在这里,我们将多个噪声源吸收为一个统一的术语,即read噪:

读取噪声可以假定遵循高斯分布,但噪声数据的分析(在3.2节)告诉其形状的长尾性质。这可以归因于源跟踪噪声[25]的闪烁和随机电报信号成分,或由暗电流引起的暗尖峰。因此,我们建议使用统计分布,可以更好地表征长尾形状。具体地说,我们通过Tukey lambda分布对读噪进行建模(T L),它是一个分布族,可以近似一些常见分布(例如,一个重分布)。

其中λ和σ在零均值噪声的假设下,将其中的形状参数和尺度参数分别设为不语位参数为零。

条带模式噪声Nb出现在图像中作为水平或垂直的线。在我们的模型中,我们只考虑行噪声分量(水平条纹),因为在测量噪声数据时,列噪声分量(垂直条纹)通常可以忽略不计(第3.2节)。我们模拟行噪声Nr的方法是,利用尺度参数参数从政均为零的高斯分布中采样一个值,然后将其作为一个偏移量添加到单行内的所有像素上。

从电压到数字信号:

为了生成可存储在数字存储介质中的图像,将最后阶段读出的模拟电压信号量化使用ADC转换成离散码。该过程引入量化噪声Nq。

其中U(·,·)为[−1/2q, 1/2q]范围内的均匀分布,q为量化步骤。

总而言之,我们的噪音形成模型包括四个主要噪声成分:

其中K、Np、Nread、Nr、Nq分别为系统整体增益、光子射噪声、read噪声、行噪声和量化噪声。

3.2传感器噪声评价

在本节中,我们提出一个噪声参数校准方法附加到我们提出的噪声形成模型。根据Eq.(2)(4)(6),指定我们的噪声模型的必参数包括光子冲击噪声Np的整体系统增益K;形状和尺度参数(模拟和用于读取噪声Nread;行噪声的标度参数参数对于一个新相机,我们的噪声校正方法包括两个主要步骤,即(1)估计不同ISO设置下的噪声参数3(2)对噪声参数的联合分布进行建模。

估计噪声参数:我们记录两个原始图像序列估计K和其他噪声参数:平场帧和偏置帧,平场帧是传感器均匀照明时捕获的图像。利用光子传递法可以推导出K。一旦我们有[32]K,我们可以首先将一个原始数字信号D转换为光电子数,然后对其施加泊松分布,最后将其还原为D 这模拟了真实的光子射噪声。

偏置帧是在无光环境下以最短曝光时间拍摄的图像。我们在一个黑暗的房间里拍摄,相机的镜头盖上了盖子。偏置框架描绘了独立于光的读噪图像,由上述多个噪声源混合而成。通过执行离散测试,可以测试带型噪声
偏置坐标系下的傅里叶变换。在图3中,高亮显示集中傅里叶频谱的垂直方向显示了行噪声成分的存在。为了分析行噪声的分布,我们从原始数据中提取每一行的平均值。因此,考虑到其他噪声源的零均值性质,这些值可以很好地估计潜在的行噪音强度。采用[55]Shapiro-Wilk检验对行噪声数据进行正态性检验,得到的p值大于0.05,说明不能拒绝数据正态分布的原假设。可以很容易地确定相关的标度参数。

图4:SonyA7S2(上)和NikonD850(下)相机读噪分布拟合。左:针对高斯分布的概率图;中间:Tukey lambda PPCC图,确定了最佳的实际情况(以红线显示);右图:针对杜基分布的概率图。一个更高的R2表示更合适。(放大效果最佳)

从偏置帧中减去估计的行噪声后,可以使用统计模型拟合剩余读噪声的经验分布。初步诊断
(图4左)显示数据的主体可以遵循a高斯分布,但它也揭示了潜在分布的长尾特性。与将极端值视为异常值相比,我们观察到适当的长尾统计分布可以更好地描述噪声数据。

我们生成一个相关系数的概率图(PPCC)绘制[20]图以确定a的统计模型Tukey lambda分布族[34]最好地描述了数据。Tukey lambda分布是一个分布族,可以通过改变其形状参数拟合来近似许多分布。该算法可以近似地得到高斯分布,也可以近似地得到重尾分布。中间PPCC图(图4)是用来找到一个好的λ的价值。

尽管我们对不同的摄像机使用统一的噪声模型,但是从不同的摄像机估计的噪声参数高度多样化 图4显示了选定的最优形状参数λ随相机的不同而不同,这意味着不同相机之间粗尾的分布程度不同。真实和模拟偏差框的视觉比较
如图5所示。它表明我们的模型能够综合各种摄像机的真实噪声,两者均在性能上优于高斯噪声模型拟合优度指标(即R2)和视觉相似度真正的噪音。

建模关节参数分布:

为了为我们的噪声形成模型选择噪声参数,我们从在不同ISO设置下估计的参数样本中推断(K,各参数参数T L)和(K,各参数参数r)的联合分布。所示图6,我们使用线性最小二乘法寻找最适合两组对数尺度测量的直线。我们的噪声参数采样程序为:

式中,U(·,·)为均匀分布,N(各向同性,各向同性)为均匀分布,各向同性均为高斯分布,各向同性均为均匀分布偏差σ。Kˆ最小和Kˆ最大的估计系统整体收益的最小和最大ISO相机分别。a和b分别表示拟合直线的斜率和截距。σˆ是标准差的无偏估计量的高斯误差的假设下的线性回归。对于形状参数拟合,我们简单地根据估计参数样本的经验分布进行采样。

噪声图像的合成:为了合成有噪声的图像,我们选择干净的图像,用均匀采样的[100,300]的弱光因子进行分割,以模拟黑暗中低光子计数。然后根据Eq.(6)(7)生成噪声,并将噪声添加到缩放后的干净样本中。最后将创建的噪声图像归一化,将相同的弱光因子相乘,暴露出明亮但噪声过强的内容。

4. 极低光去噪(ELD)数据集

为了系统地研究提出的噪声形成模型的一般性,我们收集了一个极低光去噪(ELD)数据集,该数据集覆盖了来自多个品牌的10个室内场景和4个摄像机设备(SonyA7S2,NikonD850、CanonEOS70D CanonEOS700D)。我们记录每个摄像机的偏置和平场帧来校准我们的噪声模型。数据捕获设置如图7所示。对于每个场景和每个相机,首先拍摄基准ISO的参考图像,然后是噪声图像,通过低光因子f故意减少曝光时间,以模拟极端低光条件。然后拍摄与第一张相似的参考图像,以确保不会发生意外错误(例如剧烈的光照变化或意外的相机/场景移动)。我们选择三个ISO等级(800,1600,3200)4和2低光因数(100,200)噪声图像来捕获我们的数据集,总共得到240(3×2×10×4)幅原始图像对。在我们的数据集中最困难的例子类似于在a点捕获的图像
“伪”ISO最高640000(3200×200)。

5、实验

5.1实验设置

实现细节:构建了一个基于学习的神经网络管道进行微光原始去噪。我们使用与[9]相同的U-Net架构[51]。生
来自SID Sony训练数据集[9]的Bayer图像用于创建训练数据。我们将原始的拜耳图像打包成四个通道(R-G-B-G)并进行不重叠的裁剪由随机翻转/旋转增加的512×512个区域。我们的方法只使用干净的原始图像,因为成对的噪声图像是由提出的噪声模型实时生成的。此外,我们还参照其他训练方案对网络进行训练,包括对真实数据进行配对训练(短曝光和长曝光对应)和对真实噪声图像进行配对训练(即:Noise2Noise[38])。我们的实现是基于PyTorch的。我们使用L1损失和批量大小为1的Adam优化[35]对200 epoch的模型进行训练。初始学习率设置为10−4在第100epoch时减少了一半,最后在第180epoch时减少到10 - 5。

对比方法:为了了解我们提出的噪音模型的准确性,我们将我们的方法与以下方法进行比较:

  1. 使用真实噪声数据进行训练的方法,即“配对真实数据”[9]6和Noise2Noise [38];
  2. 已有的噪声模型,即同方差(G)和异方差高斯噪声模型(G+P) [22,21];
  3. 代表性的非深埋方法有BM3D[15]和Anscombe-BM3D

5.2SID Sony数据集的结果

首先对来自SID Sony验证和测试集的图像进行单图像原始去噪实验。在定量评价方面,我们侧重于自然光照射的室内场景,以避免交流光[2]的闪烁效果8。考虑到快门速度和模拟增益[2]的不准确性,计算单个标量并将其与重建图像相乘,以最小化由ground truth评估的均方误差。

噪声模型的烧蚀研究。为了验证提出的噪声模型的有效性,我们比较了3.1节中开发的不同噪声模型训练的网络的性能。所有噪声参数均采用Eq.(7)的方法进行采样。第5.1节中描述的其他方法的结果也作为参考给出。

如表1所示,同方差/异方差高斯模型与事实噪声模型(通过对真实数据训练的模型表征)之间的域差距显著。这可以归因于
(1)在极低照度下,泊松分布的高斯近似不成立;(2)噪声模型中未考虑水平带;(3)忽略了读噪的长尾特性。通过考虑所有这些因素,我们的最终模型,即G+P+R+U会产生一个惊人的结果:结果可以与用配对的真实数据训练的模型相比,有时甚至更好。此外,仅用真实的低光噪声数据进行训练是不够有效的,这是由于剪切效应(违反了零均值噪声假设)和腐蚀的大方差(导致的大方差Noise2Noise解决方案)[38]。我们最终的模型和其他方法的可视化比较如图8所示:

 图9:来自SID Sony数据集的RAW图像去噪结果在室内和室外场景。(放大效果最佳)

图10:我们的ELD数据集的RAW图像去噪结果。(放大效果最佳)

虽然我们只对SID Sony场景的室内场景进行定量评价,但是我们的方法也可以应用到室外场景中。SID Sony set室内外场景的视觉比较如图9所示。可见,随机噪声是可以被抑制的在异方差高斯噪声(G+P)[22]下学习的模型下,得到的图像颜色失真,带状伪影明显,图像细节难以辨别。相比之下,我们的模型产生了视觉上吸引人的结果,就好像是用配对的真实数据训练出来的。

图11:采集的弱光图像去噪结果华为荣耀10相机。

5.3对我们的ELD数据集的结果

方法比较:为了看看我们的噪声模型是否也可以适用于其他摄像机设备,我们评估模型性能在我们的ELD数据集。表2和图10总结了所有竞争方法的结果。可见,非深度去噪方法,如BM3D和
A-BM3D,不能解决带噪输入中的带残差、颜色偏差和极值问题,而我们的模型恢复了人类观察者很难在带噪图像上感知到的生动的图像细节。此外,我们用合成数据训练的模型,甚至经常优于用训练的模型。我们注意到,这里的发现符合3.2节中对传感器噪声的评价,特别是在图4和5其中我们显示的底层噪声分布随着摄像机的变化而变化。因此,用来自SID Sony camera的配对真实数据进行训练,不可避免地会过度适应仅存在于Sony camera上的噪音模式,导致在其他类型的相机上出现次优结果。相比之下,我们的模型依赖于一个非常灵活的噪声模型和噪声校准过程,使它适应其他(校准的)相机模型的噪声特性。另外的证据可以在图11中找到,在图11中,我们将这两种模型应用于智能手机摄像头捕捉的图像。我们重建的图像比重新得到的图像更清晰。

使用更多综合数据进行训练:与传统的使用配对真实数据的训练方法相比,我们的方法的一个有用的优点是,我们的模型可以很容易地与更真实的干净样本结合起来进行训练。图12(a)显示了我们的模型在训练时的相对改进MIT5K数据集[7]。我们发现主要的改进,如图13所示,是由于更准确的颜色和亮度恢复。通过对来自不同相机的更多原始图像样本进行训练,网络学会了更自然、更精确地推断图像外观。

噪声校正的灵敏度:我们的方法的另一个好处是,我们只需要干净的样本和噪声校准过程,以适应一个新的相机,而不是捕获真正的噪声图像与密集标记的地面真相。此外,只要我们已经收集了多个摄像机的参数样本,就可以简化噪声标定过程。从图12(b)中可以看出,模型在没有噪声标定的情况下,只需简单地从其他三个标定的摄像机中采样参数,就可以在目标摄像机上达到类似的性能。

6、结论

我们提出了一种基于物理的噪声形成模型和噪声参数校准方法,以帮助解决极低光去噪的困难。我们重新审视电子成像管道,并调查影响噪声源忽略了现有的噪声模型。这使我们能够合成真实的噪声原始数据,更好地匹配噪声形成的底层物理过程。我们系统地研究我们的噪声形成模型的有效性,通过引入一个新的数据集,包括四个代表性的摄像机设备。通过只使用我们的合成数据进行训练,我们证明了卷积神经网络可以与用配对的真实数据训练的网络竞争,有时甚至超过前者。

Code:论文代码链接

 

 

 

 

 

 

 

 

 

 

 

  • 6
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

岁月蹉跎的一杯酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值