High dynamic range imaging via gradient-aware context aggregation network

日期

2023.11.05

论文标题

High dynamic range imaging via gradient-aware context aggregation network

摘要

从多个不同曝光的低动态范围(LDR)图像获得高动态范围(HDR)图像是各种计算机视觉任务中的一个重要步骤。在该领域的一个持续挑战是生成无鬼影伪影的HDR图像。基于这样一个观察,即这些伪影在梯度域中尤其明显,在本文中,作者提出了一种HDR成像方法,该方法聚合了多个LDR图像中的信息,并受到图像梯度域的指导。所提出的方法通过整合图像梯度信息和像素域中的图像上下文信息来生成无伪影的图像。大范围的上下文信息有助于重建由饱和和错位污染的内容。具体来说,一个额外的梯度流和梯度域中的监督被应用于HDR成像中融合梯度信息。为了在保持空间分辨率的同时使用从大范围捕获的上下文信息,本文采用膨胀卷积来提取具有丰富上下文信息的多尺度特征。此外,本文构建了一个包含40组来自不同场景的真实世界图像和真值的新数据集,以验证所提出的模型。所提出数据集中的样本包括更具挑战性的移动物体引发的错位。广泛的实验结果表明,作者提出的模型在不同数据集上的量化测量和视觉感知质量方面都优于先前的方法。

引用信息

@article{yan2022high, title={High dynamic range imaging via gradient-aware context aggregation network}, author={Yan, Qingsen and Gong, Dong and Shi, Javen Qinfeng and van den Hengel, Anton and Sun, Jinqiu and Zhu, Yu and Zhang, Yanning}, journal={Pattern Recognition}, volume={122}, pages={108342}, year={2022}, publisher={Elsevier} }

本论文解决什么问题

        1.作者提出了一个全新的端到端深度网络,用于HDR成像,通过整合图像上下文和相应的梯度信息。这是第一个考虑使用深度网络进行梯度信息鬼影去除的工作。

        2.作者使用上下文扩张网络来捕获具有不同大小感受野的上下文信息。不同尺度的特征通过特别设计的融合块融合。

        3.为了更好地验证所提出网络的性能,作者构建了一个新的真实世界HDR数据集,其中包含多曝光图像和来自不同场景的相应真实HDR图像。所提出的数据集包含了由运动引起的更具挑战性的错位。

        4.所提出的无对齐操作的GCANet在各种数据集上的性能均优于最先进的方法。

已有方法的优缺点

        1.基于移动像素拒绝的算法。这些算法从输入的LDR图像中选择一个参考图,并使用它来检测非参考输入图像中的运动像素。随后的合并过程旨在通过丢弃运动像素生成HDR图像。因此,这些算法之间的主要区别在于如何检测由动态像素引起的不一致区域。然而,这些方法在非刚性运动或大运动的情况下仍然有伪影。

        2.带有LDR图像对齐的算法。许多HDR成像方法通过在合并前对LDR图像进行对齐来处理错位问题。已经提出了简化的方法来对齐LDR图像以解决相机或刚体运动。然而,这些技术生成的HDR图像的质量根本上受到对齐准确性的限制。其主要限制是高计算成本,并且在参考图像有大运动和饱和区域的挑战性案例中常常失败。

        3.基于深度学习的算法。深度自编码网络(CNN),考虑到预测HDR值中的挑战。采用基于深度学习的方法从一个LDR图像合成LDR图像,然后通过合并它们来重建HDR图像。然而,这些方法的一个限制是信息只来自单一图像,通常无法重建饱和区域的细节。因此,大多数工作致力于从不同曝光的图像生成HDR图像。

本文采用什么方法及其优缺点

        给定三张不同曝光时间的低动态范围(LDR)图像(L1,L2,L3),其中中间曝光图像L2设为参考图像,本文的主要目标是重建与参考图像对齐的高动态范围(HDR)图像H。所有的LDR和HDR图像都是具有三个通道的RGB图像。与Kalantari和Ramamoorthi相似,在将LDR图像输入网络之前,HDR图像H1,H2,H3通过来自输入LDR图像的伽马校正生成。这个映射过程可以写成如下:

        1.GCANet架构

        如前所述,鬼影细节在梯度域中更易于辨识。受此启发,作者提出了一种由图像梯度信息驱动的上下文聚合HDR成像网络,命名为GCANet。如图3所示,所提出的GCANet由两个主要子模块组成,即融合模块和重建模块。融合模块旨在融合多个LDR图像的上下文信息,其中图像梯度的特征被共同提取并融入到图像流中。重建模块则重建HDR图像的像素强度和梯度。融合模块和重建模块均包含图像流和梯度流,以恢复图像像素和梯度。

        在融合模块中,图像流将 $X_i$作为输入;梯度流则将 $X_i$和 $G_i$的组合作为输入。重建模块利用这两个流重建HDR图像的像素和梯度。在融合模块中,作者首先采用一个卷积层从输入 $X_i$和 $G_i$中提取低层特征,接着是上下文聚合网络,它是学习HDR图像或梯度图重建特征的关键组成部分。得益于指数级增长的卷积扩张,上下文聚合网络具有广阔的感受野和较低的深度,这有助于获取更多的上下文信息。然后,本文使用由梯度特征引导的融合块来合并不同的上下文信息。通过这种设计的模块,阶段性地去除鬼影伪影。在重建模块中,HDR图像和梯度图是在经过数个残差块后生成的。为了重建三通道的HDR图像或单通道的梯度图,这两个流的最后层使用了3×3的卷积。

        2.融合模块

        融合模块在GCANet中起着至关重要的作用,它决定了HDR图像重建特征的质量。具体来说,该模块由一个上下文聚合网络和一个融合块组成。HDR图像重建过程中的关键挑战是抑制由不对齐引起的伪影。基于上述分析(如图2所示),作者将梯度信息作为指导集成到融合过程中。为了提取和利用上下文信息,作者设计了一个与上下文聚合网络(CAN)类似架构的融合模块。上下文信息在越来越大的尺度上逐渐被聚合,以至于每个输出像素的计算都考虑了网络深度指数级大小窗口内的所有像素。所提出的HDR成像网络共同处理多个输入图像,并通过在不同尺度上的多个融合块融合不同的特征图。如图3所示,融合模块是一个完全卷积网络。采用膨胀卷积以获得更大的感受野,并进一步捕获上下文信息。如图3所示,融合模块包含4个具有3×3卷积和不同膨胀因子的卷积层{L0, L1, L2, L3}。由于第一层L0用于从输入中捕获低级特征图,因此作者在该层不使用膨胀。中间层Lj (1 ≤ j ≤ 3)的膨胀因子分别为1, 2和4,导致感受野的指数级增长。特别地,Lj的特征图是根据前一层Lj−1的特征图计算得出的,如下所示:

        3.重建模块

        依赖于融合模块,作者获得了两个融合的特征图(如图3中的黑线和红线所标记)以用于重建HDR图像和梯度图。重建模块主要由三个具有3×3卷积的残差块组成。为了恢复三通道HDR图像或一个通道的梯度图,这两个流的最后层都采用了3×3卷积。这种设计有利于恢复HDR图像的丰富细节,梯度流提供了一个强有力的约束以去除鬼影伪影。例如,如果图像流的结果存在鬼影伪影,在此情况下,融合模块的输出特征无法获得有效的表征,梯度流将产生严重的伪影。为了抵消这些伪影,所提出的网络需要同时保证完美重建的HDR图像和梯度图。

        4.损失函数

        由于大多数HDR图像通常在色调映射后在屏幕上显示,作者计算了色调映射后的真实图像与GCANet输出之间的损失函数。因为其他强大的方法通常复杂且不可微分,Kalantari提出了μ-律函数,这是音频处理中常用的范围压缩器。该函数定义如下:

其中μ=5000是决定压缩级别的参数,T(H)是HDR图像H的色调映射图像。采用均方误差(MSE)损失作为损失函数。数学上,它可以写成以下形式:

使用的数据集和性能度量

        本节介绍了一个具有真实场景高动态范围成像数据集,包含了由大幅度运动引起的挑战性错位问题,如图4所示。

        尽管现有几个HDR数据集可用,但它们中的许多没有用于训练或测试的真实场景图像。在HDR去鬼影任务中,Tursun等人的数据集只有低动态范围(LDR)图像;Funt等人的数据集是从静态场景中捕获的。为了克服这个问题,Kalantari等人创建了一个新的HDR图像数据集,其中包含了对应于LDR图像的真实场景HDR图像。该数据集包括74个训练样本和15个测试样本。然而,这个测试集只有白天场景,并且没有足够的样本来评估算法的性能。为了验证本文提出的方法在实景图像上的通用兼容性,作者构建了一个包含40个不同场景的新数据集来评估HDR成像方法。该测试集包括不同照明条件下拍摄的场景,如清晨、正午、日落和夜晚。作者的目标是捕获一系列带有运动的LDR图像及其对应的真实场景HDR图像。在捕获数据集时,作者引入了比以前的数据集更多样化的场景中由前景的大幅度移动所引起的更具挑战性的错位。根据Kalantari和Ramamoorthi的设置,为了获得真实的HDR图像,作者在不同的曝光下拍摄了三张带有不同物体但前景静止的LDR图像。作者使用三脚架来确保LDR图像对齐。由于获取的LDR图像中不存在运动,本文使用一个简单的融合函数来生成真实场景HDR图像:

        与Kalantari等人类似,作者使用三角加权方案来合并这些图像。对于动态场景,作者通过要求物体在三种不同的曝光下改变姿势来捕获输入的LDR图像。为了增加测试数据的多样性,作者采用三种方式捕获输入图像。

        首先,作者在三脚架上获取这些图像,以确保LDR图像的背景对齐。其次,作者手持相机捕获LDR图像,以模拟相机运动。这些图像有动态的背景和前景物体。第三,由于相机震动,作者还获取了不同模糊级别的LDR图像作为样本。为了确保估计的HDR图像的内容与中间图像对齐,作者用静态场景中的图像替换了中间图像。作者使用索尼Alpha A7-III相机以RAW格式捕获图像,分辨率为6024×4024。由于这个分辨率对于测试来说太大,作者将所有LDR图像的分辨率下采样到1500×1000。另外,作者捕获的不同曝光的LDR图像之间相差两到三个挡位。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值