A High-Quality Denoising Dataset for Smartphone Cameras 阅读笔记

该论文提出了一种制作真实噪声图像对应的ground truth的方法,并基于该方法提出了一个高质量智能手机去噪数据集。

目前智能手机图像去噪是一个活跃的研究领域,但是目前该领域缺乏一个高质量的数据集,即真实的噪声图像和对应的高质量 ground truth.本文设计了一种产生高质量智能手机图像去噪数据集SIDD。使用5个具有代表性的智能手机摄像头,在10个不同光照条件下,从10个场景中获取约30,000张噪声图像,并生成它们对应的ground truth。用本文的数据集来训练去噪的深度网络模型,确实有效。

好的去噪数据集对于智能手机图像的去噪和去噪技术的标准化评估都是至关重要的。

Non-Local mean: 目前人们制作数据集主要基于Non-local mean的思想,即假设噪声服从高斯分布,取均值可以为0。因此有人之间拍摄连续几张图像,然后取均值得到ground truth。虽然逐像素平均在某些情况下是有效的,但在两种常见情况下是无效的:(1)当图像序列出现错位时,导致图像均值模糊;(2)当由于低光条件或过度曝光而产生的像素强度被截断时,噪声为非零均值,直接平均有偏置;这两种情况是智能手机图像的典型情况,据我们所知,之前没有任何工作涉及到在这些设置下通过图像平均进行地面真值估计。

高低ISO对:低ISO一般噪声较少,但是对于智能手机,因为设备受限,即使低ISO,噪声仍然很大。同时高低ISO图像对之间也需要很好的对齐。简单的全局对齐已被证明不足以对智能手机图像进行对齐。例如1RENOIR dataset包含一对低/iso图像,该数据集缺乏精确的空间对齐,同时低iso还是有噪声,此外,原始图像的强度被线性映射到8位深度,这对图像的质量有不利影响。Darmstadt Noise Dataset (DND):同样包含/iso图像对,相比(1),它会进行空间对齐,同时克服环境光或人造光闪烁引起的亮度变化(特定环境拍摄)。但是该数据集大多数低噪声,正常光照,而事实要处理的是高噪声图像,或者说低光条件下的图像。此外,将图像之间的不一致视为全局平移对于镜头运动、径向畸变或光学图像稳定等情况是不够的。

人造噪声:人们通过给无噪声图像添加人造噪声,用这种方法得到的去噪结果高度依赖于所使用的噪声模型的准确性。

因此作者没有采用高低ISO对方法来制作数据集,而是采用Non-Local mean思想制作数据集。但是基于Non-Local mean思想制作数据集,存在两个问题要解决1 解决连续帧之间不对齐的问题;2 解决由于低光或者过曝导致像素被截断的问题。

针对第一个问题,作者提出了局部分块对齐。针对第二问题,作者采用插值的方法替换像素强度被截断的像素。

 

Non-Local mean 思想即采取连续多帧图像,然后取均值,为了保证图像之间对齐,既需要好的对齐算法,也需要好的拍摄条件。

拍摄前提条件:   

1 图像捕获设置和协议

场景设置:本论文只捕捉静态室内场景,以避免场景运动造成的不对齐。此外,我们使用直流电光源来避免交流电光源的闪烁效应(讲究);我们的光源可以调节照明亮度和色温(讲究);我们用了5台智能手机摄像头(苹果iPhone 7,谷歌Pixel,三星Galaxy S6 Edge,摩托罗拉) Nexus 6LG G4

拍摄协议:文章使用不同的相机、不同的设置和/或不同的灯光条件多次捕捉每个场景,它们的每个组合称为场景实例。对于每个场景实例,我们捕获一系列连续的图像,在后续图像之间有1 - 2秒的时间间隔,在捕获图像序列时,所有相机设置(ISO、曝光、对焦、白平衡、曝光补偿)在整个过程中都是固定的。

我们用5台智能手机相机在以下4种不同的设置和条件下(平均)拍摄了10个不同的场景:

15个不同的ISO级别,范围由5010,000不等,以获取不同的噪音级别(ISO级别越高,噪音就越高)

三种光照温度模拟不同光源的效果:钨或卤素3200K,荧光灯4400K,日光5500K

三种亮度级别:低、正常和高;

对于每个场景实例,我们捕获一个包含150张连续图像的序列,由于噪声是随机的,每幅图像都包含来自传感器噪声分布的随机样本。因此,我们数据集中的图像总数约为30000(10个场景5个摄像头4个条件150张图像),对于每个图像,我们生成相应的ground truth图像。用DNG/Tiff文件中的原始数据记录所有设置。

2 噪声度量标准

噪声估计(评估地面真实图像的质量):对图像中存在的噪声水平进行估计通常是有用的,为了为我们的数据集提供这样的估计,我们使用两种常见的度量方法:(1)首先是信噪比函数(NLF),该模型将噪声建模为异方差相关信号高斯分布,其中噪声的方差与图像的强度成正比,对于低强度像素,由于传感器噪声(建模为高斯噪声)占主导地位,异方差高斯模型仍然有效。我们使用的第二种噪声测量方法是与图像强度无关的噪声的同调高斯分布,通常用其标准差表示。

3  Ground Truth Estimation如何生成好的去噪 ground truth

   本节详细介绍了用于估计地面真值图像的处理管道,以及管道有效性的实验验证。下图提供了主要步骤的图表:(主要针对对齐和曝光问题)

  • 4.1 缺陷像素校正:缺陷像素会影响ground truth估计的准确性,因为它们不遵循在正常像素位置产生噪声的相同的底层随机过程。我们考虑两种有缺陷的像素:产生比预期更高信号数据的热像素;产生完全饱和信号数据的固定像素。为了避免改变图像内容,我们应用了一个中值滤波器来去除这些噪声,并应用了以下步骤。首先,检测每个相机传感器上缺陷像素的位置,们在一个没有光线的环境中拍摄了500张照片。记录平均图像记为X, 然后基于平均图像X,用均值u和标准差q估计一个高斯分布,然后基于uq构建置信区间,区间以外的为缺陷像素。在检测到有缺陷的像素位置后,我们使用双三次插值来估计这些位置的正确强度值。图4证明去除缺陷像素是有必要的。
  •  4.2 强度对齐:尽管有可控的成像环境,但由于潜在的硬件不精确,仍然需要考虑场景照明和相机曝光时间的微小变化。因此首先计算一个序列图像中的每一个图像的平均值,然后基于这些平均值求出均值和方差,基于均值和方差得到一个置信区间,然后在置信区间以外的图像删除。然后再计算一个平均值,然后通过使得所有图像具有相同平均值来完成强度对齐。我们在整个数据集中找到的离群图像的总数只有231张。这些图像通常被明显的亮度变化损坏。4.3 密集局部空间对齐
  • 4.3密集局部空间对齐:在用智能手机捕捉图像序列时,我们观察到图像内容在图像序列上的显著变化。进一步研究这个问题,我们将智能手机放在振动可以控制的光学表上(排除环境振动),用固定的基准点对平面场景进行成像,如图5所示,作者通过连续观察500张图像来观察这一现象,发现主要由于镜头同轴偏移和径向畸变联合影响的。但是发现单反摄像机不会产生这种扭曲或位移。经过进一步的研究,我们发现这是由光学图像稳定器引起的。因为它是底层摄像机硬件的一部分所以无法控制避免。因此,在对地面真值图像进行估计之前,我们必须对所有图像进行局部密集对齐。为此,我们采用以下方法对噪声图像进行鲁棒局部对齐(对序列中的每个图像重复此过程):
  • (1)选择一个参考图
  • (2)将图像分解为512*512(有重叠),我们选择足够大的图像块来考虑图像中较高的噪声水平。patch越大,我们对局部平移向量的估计就越准确。我们将这些补丁的中心表示为下一个注册步骤使用的目标地标。
  • (3)使用基于精确傅里叶变换的方法来估计每个图像中每个patch相对于参考图像对应的patch的局部平移向量,这样,我们就得到了每个图像的源地标。
  • (4)有了源图像中的源地标到对应参考图像的目标地标之间的局部平移向量,我们然后采用thin-plate 条样图像映射来将源图像对齐到参考图,我们发现我们采用的技术比将对齐问题看作一个全局2D转换要精确得多;(实验对比局部对齐比全局对齐好)
  • 作者将这两种技术应(局部对齐和全局转换)用于一系列合成图像,包括合成的局部像素移位和信号相关的噪声,合成的局部像素位移与实测图像的位移相同(5b5c)。相对于2D全局对齐,我们的局部对齐技术在实际噪声级别范围内始终生成更高的PSNR值。作者将每一个图像做一次参考图,然后得到其对应的真值图像。

  • 4.4 均值图像获取:一旦图像对齐,下一步是获得平均图像。由于光照不足或过度曝光像素的裁剪效果,这些强度值被裁减的像素直接用于平均,将会导致结果有偏差。为了解决这个问题,我们提出了一种健壮的技术来解决这种被裁减的像素。 由于传感器的最小和最大测量限制,使得该像素存在截尾现象。因此我们采用如下步骤来估计真正潜在的真实无噪声像素值。
  •  分析多帧同一位置像素,求出分布得到均值

     为了评价我们采用的WLS方法估计强度裁剪影响的平均图像,我们对添加了合成噪声并应用强度裁剪的合成图像进行了实验.

结束语:

      作者主要从去噪PSNRSSIM,去噪时间三个方面对比。     然而,我们的讨论将集中在基于psnr的方法排名上,因为性能最好的方法往往具有相似的SSIM得分,尤其是在raw-RGB空间中。PSNR结果可以看出,传统的基于patch和优化的方法(例如BM3DKSVDLPGPCAWNNM)的性能优于基于学习的方法(例如,MLP, TNRD, DnCNN)在真实图像上测试时。另一个观察是,去噪在RawsRGB空间的去噪相比,Raw空间的去噪质量更高,去噪速度更快。作者发现,在去噪质量和计算时间的结合方面,BM3D算法仍然是性能最好的算法之一。作者进一步基于自己的数据集训练DnCNN,并对比其他数据集。

本文针对智能手机相机去噪研究对高质量图像数据集的迫切需求,我们提供了一个详细的描述,如何捕捉和处理智能手机图像,以产生这个地面真相数据集。

code:https://github.com/AbdoKamel/sidd-ground-truth-image-estimation

 

  1.  
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值