论文阅读:Ghost-free High Dynamic Range Imaging with Context-aware Transformer

目录

引用信息(BibTeX格式):

论文背景:

本论文解决的问题:

已有方法的优缺点:

本文采用的方法:

Context-Aware Vision Transformer

CA-ViT的优势

HDR-Transformer框架

Feature Extraction Network

HDR Reconstruction Network

损失函数

实验:

与我们工作的相关性:


引用信息(BibTeX格式):

@inproceedings{liu2022ghost,
  title={Ghost-free high dynamic range imaging with context-aware transformer},
  author={Liu, Zhen and Wang, Yinglong and Zeng, Bing and Liu, Shuaicheng},
  booktitle={European Conference on Computer Vision},
  pages={344--360},
  year={2022},
  organization={Springer}
}

论文背景:

高动态范围成像(High Dynamic Range Imaging,HDRI/HDR)是一种数字图像处理技术,用于捕捉和显示比普通摄影或电视屏幕更大范围亮度的图像。它可以通过在不同曝光水平下拍摄多张照片,然后将它们合成为一张具有高动态范围的图像来实现。

HDRI/HDR技术通过捕捉多个曝光水平下的图像,并将其融合在一起,以在一幅图像中呈现出比普通照片或屏幕更大的亮度范围。这使得人们可以看到更多细节和色彩,以及更准确地体验场景的真实感。HDRI/HDR技术在摄影、电影制作、虚拟现实等领域都有广泛应用。

该论文的背景是高动态范围(HDR)图像去鬼影算法。传统的方法受限于感受野的局限性,在处理大运动和严重饱和时往往容易产生鬼影和强度失真。因此,论文提出了一种新颖的基于Transformer的框架,名为HDR-Transformer,旨在解决这一问题。通过融合全局和局部依赖性,HDR-Transformer能够有效地消除鬼影,并重建出高质量的HDR图像,而无需堆叠非常深的卷积块,从而降低计算成本。

本论文解决的问题:

本论文解决的问题是高动态范围(HDR)图像去鬼影的问题。通过提出一种基于Transformer的框架,HDR-Transformer,能够有效地消除鬼影并重建高质量的HDR图像,从而解决了现有方法受限于感受野局限性的问题。

已有方法的优缺点:

传统的方法主要分为三类:运动排除方法、图像配准方法和基于CNN的方法。运动排除方法通过全局对齐和像素剔除来消除鬼影,但会导致信息丢失;图像配准方法通过对LDR图像进行配准来消除鬼影,但在大运动时会产生明显的鬼影;基于CNN的方法则可以通过学习来解决鬼影问题,但受限于感受野局限性,无法处理大范围的运动和饱和情况。

本文采用的方法:

论文提出了一种新颖的基于Transformer的框架,即HDR-Transformer。该框架由特征提取网络和HDR重构网络组成。特征提取网络通过空间注意力模块来融合浅层特征,从而稳定Transformer的训练过程,并抑制不良的对齐。HDR重构网络则利用提出的Context-Aware Vision Transformer(CA-ViT)作为基本组件,通过双分支架构来同时捕获全局和局部依赖性。其中,全局分支采用基于窗口的多头Transformer编码器来模拟长程物体运动和强度变化,以解决鬼影问题;局部分支通过局部上下文提取器(LCE)来提取短程图像特征,并利用通道注意力机制来选择最有用的局部细节,以补充全局分支。最终,HDR-Transformer能够有效地消除鬼影,并重建出高质量的HDR图像,而无需堆叠非常深的卷积块,从而降低计算成本。

Context-Aware Vision Transformer

具体结构如下图所示,主要包括一个全局Swin transformer编码器分支和一个局部LCE分支:

如图中(a)所示,CA-ViT被设计为一个双分支架构,其中全局分支通过多头Transformer编码器对图像上下文中的长程依赖关系进行建模,而局部分支则通过局部上下文提取器探索帧内细节和帧内特征关系。图中(b)描述了我们使用CA-ViT进行HDR去鬼影的关键思路。为了消除手部的大幅移动引起的残留鬼影伪影(蓝色标记),我们需要对鬼影区域进行合理内容的估计,这就需要通过全局分支中的自注意力机制对长程上下文(红色标记)进行建模。同时,通过局部分支中的卷积层有效提取出曝光良好且未被遮挡的局部区域(绿色标记),并通过通道注意力进行融合。

Kalantari等人提出的CA-ViT架构结合了全局上下文和局部上下文,以应对HDR图像去鬼影问题。全局分支利用自注意力机制对长程上下文进行建模,以修复残留鬼影伪影的问题。局部分支则通过卷积层从曝光良好且未被遮挡的局部区域中提取特征,并通过通道注意力进行融合。这种双分支架构的设计使得CA-ViT能够同时处理全局和局部信息,提高了HDR去鬼影的效果。

CA-ViT的优势

相比传统的基于卷积神经网络(CNN)的方法,CA-ViT具有更强的长程建模能力。传统的CNN由于卷积操作的局部限制,需要堆叠多层才能获得较大的感受野,从而无法有效地解决长程依赖问题。此外,卷积操作是内容无关的,无法区分不同图像区域的强度变化。而CA-ViT则能更好地建模长程依赖关系,并区分不同区域的强度变化,从而能更好地消除幻影和失真问题。

HDR-Transformer框架

如图(a),特征提取网络首先通过空间注意力模块提取粗特征。如图(b),然后将提取的特征馈送到HDR重建网络中以恢复HDR结果。HDR重建网络由多个上下文感知的Transformer块(CTB)组成,其将所提出的CA-ViT作为基本组件。

HDR-Transformer框架由特征提取网络和HDR重建网络组成。特征提取网络通过卷积操作提取浅层特征,并通过空间注意模块将它们粗略融合。这些早期的卷积层可以稳定视觉Transformer的训练过程,并有助于抑制不希望的图像不一致。HDR重建网络则利用CA-ViT作为基本组件,采用分层结构进行构建。CA-ViTs既能模拟长程幻影和局部像素关系,从而能够在不需要堆叠过深的卷积块的情况下生成幻影免费的高质量HDR图像。

Feature Extraction Network

为了稳定Vision Transformers的训练过程,我们首先通过三个单独的卷积层从输入图像Xi(i = 1, 2, 3)中提取浅层特征fi(i=1, 2, 3),其中C是通道的数量。然后,我们将每个非参考特征(即f1和f3)与参考特征f2进行拼接,并通过一个空间注意力模块A计算注意力图mi,如下所示:

mi = A(fi, f2), i=1, 3 

注意力特征f'i通过将注意力图mi与非参考特征fi逐元素相乘得到,即:

f'i = fi ⊙ mi, i=1, 3 

其中⊙表示逐元素乘法。空间注意力模块已被证明能够有效地减少前景物体运动引起的不必要内容。注意力模块中的卷积层还可以增加对后续Transformer层的归纳偏置。

HDR Reconstruction Network

该网络主要由几个上下文感知Transformer块(CTBs)组成,其中第一个CTB的输入fatt由f'1、f2和f'3组成,并嵌入到token嵌入中。通过N个CTBs和一个卷积块来重建HDR结果,同时采用全局跳跃连接来稳定优化过程。

为了解决大物体运动和重度饱和引起的遮挡问题,需要长范围上下文来消除对应的幽灵区域和产生合理的内容。因此,我们采用上下文感知Transformer块(CTB)作为基本组件。每个CTB包含多个CA-ViT块。对于第n个CTB的输入Fn,0,第m个CA-ViT的输出可以表示为:

Fn,m = Cn,m(Fn,m-1), m=1,2,...,M 

其中Cn,m(·)表示相应的CA-ViT。然后,我们将最后一个CA-ViT的输出馈送到一个扩张卷积层中,以增加上下文范围的感受野。在每个CTB中还采用残差连接以实现更好的收敛。因此,第n个CTB的输出可表示为:

Fn = DConv(Fn,M) + Fn,0 

其中,DConv(·)表示扩张的卷积层,并且M和N分别根据经验被设置为6和3。

损失函数

为了与通常在色调映射后查看的HDR图像相对应,我们使用常用的µ-law函数在色调映射域中计算损失。µ-law函数定义如下:

T(x) = (log(1 + µx)) / (log(1 + µ))

其中T(x)表示经过色调映射的HDR图像,我们将µ设置为5000。与之前的方法不同,我们不仅采用像素级的损失(如l1或l2误差),还利用l1损失和感知损失来优化提出的HDR-Transformer。给定估计的HDR图像I ˆH和真实的HDR图像IH,l1损失项定义如下:

感知损失被广泛应用于图像修复领域,以改善视觉质量。我们也将感知损失应用于重建的HDR图像以提高质量:

其中Ψ(·)表示从预训练的VGG-16网络[34]提取的激活特征图,j表示第j层。我们在消融研究中分析了感知损失的有效性(第4.3节)。最终,我们的训练损失函数L可以表示为:

其中λp是超参数,我们将其设置为0.01。

实验:

该论文在三个基准数据集上进行了实验,分别是HDR-VDP-2,HDR-EI,和Nahabedian数据集。这些数据集都是用于评估HDR图像质量的常用数据集。

在本论文中,作者选择了PSNR、SSIM和MAE等指标来评估HDR图像质量,这些指标都是常用的图像质量评估指标,能够客观地反映图像的视觉质量。通过对这些指标的评价和对比,论文能够直观地展示该算法的优越性。在Kalantari等人的测试集上对以前的方法和本文的方法进行定量比较,对比结果如下:

将HDR-Transformer的结果与几种最先进的方法进行了比较,其中包括两种基于贴片匹配的方法和五种基于CNN的方法。HDR-Transformer重建了无鬼影的结果,同时在这些区域产生了更精确的边界。

在图5(a)中,当面临长距离饱和时,基于CNN的算法AHDRNet和HDR-GAN在饱和边界产生了不理想的失真。基于Transformer的方法SwinIR表现更好,但仍存在可见的失真,这是由于局部上下文建模的低效性。相反,提出的HDR-Transformer生成了更精确的边界(与相应的LDR补丁进行比较),展示了论文方法的上下文感知建模能力。

图5(b)展示了一个钢琴频谱饱和的场景。之前的方法丢失了高频细节并产生模糊的结果,而论文的方法则比它们生成了更多的细节。

通过与先前的方法进行比较,在计算预算方面,HDR-Transformer在性能和效率之间取得了更好的平衡,并且在与状态-of-the-art的HDR-GAN相比仅使用了一半的计算预算的情况下表现更出色(见表2)。

表3总结了不同网络设计变体的定量结果,包括PSNR和HDRVDP-2得分。通过比较不同变体的性能,可以得出结论,如CA-ViT和SA都对性能有所改善,但CA-ViT的效益更为显著。同时,将所有组件结合起来可以进一步提升性能,验证了HDR-Transformer的管道设计的有效性。

图6展示了消融实验的定性结果。通过观察图像重建的质量,可以直观地验证结论。例如,通过引入CA-ViT和SA,可以更好地去除鬼影并恢复局部细节。

与我们工作的相关性:

该论文介绍的HDR-Transformer框架可以有效地解决HDR图像生成中的幻影问题,提高图像的质量和计算效率,具有一定的实际应用价值。除了HDR-Transformer框架,还有一些其他的方法也可以解决HDR图像中的幻影问题,比如基于GAN的方法、基于深度学习的方法等。每种方法都有其优缺点,具体选择哪种方法需要根据具体任务和需求来决定。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值