Ghost-free High Dynamic Range Imaging with Context-aware Transformer

链接[2208.05114] Ghost-free High Dynamic Range Imaging with Context-aware Transformer (arxiv.org)

code:  GitHub - megvii-research/HDR-Transformer: The official MegEngine implementation of the ECCV 2022 paper: Ghost-free High Dynamic Range Imaging with Context-aware Transformer

年份:2022年

会议:ECCV

摘要:提出了一种用于无重影高动态范围成像的新型上下文感知视觉TransformerCA-ViT

高动态范围(HDR)去重影算法旨在生成具有真实细节的无重影HDR图像。受限于感受野的位置,现有的基于CNN的方法通常容易在大运动和严重饱和的情况下产生重影和强度失真。CA-ViT为双分支架构,可以联合捕获全局和局部上下文关系。具体而言,全局分支使用基于窗口的Transformer编码器来建模长距离对象移动和强度变化,以解决重影。对于局部分支,设计了一个局部上下文提取器(LCE)来捕获短距离图像特征,并使用通道注意力机制在提取的特征中选择信息性局部细节,以补充全局分支。通过将CA-ViT作为基本组件,进一步构建了HDR-Transformer,这是一个用于重建高质量无重影HDR图像的分层网络

介绍

多帧高动态范围(HDR)成像旨在通过合并具有不同曝光的多个低动态范围(LDR)图像来生成具有更宽动态范围和更真实细节的图像。然而,在实践中,这种理想情况往往会受到相机运动和前景动态对象的破坏,从而在重建的HDR结果中产生不利的重影伪影。因此,已经提出了各种方法,通常称为HDR去重影算法,以获得高质量无重影HDR图像。

现有的基于CNN的方法已经有较好进展。尽管如此,当遇到长距离物体运动和剧烈的强度变化时,这些限制会出现。图1显示了发生大运动和严重饱和的典型场景,在先前基于CNN的方法的结果中产生了意外的重影和失真伪影。原因在于卷积的内在局部性限制。CNN需要堆叠深层以获得大的感受野,因此无法对长距离依赖性进行建模(例如,大运动导致的重影伪影)。此外,卷积与内容无关,因为在整个图像中共享相同的内核,忽略了不同图像区域的长距离强度变化。因此,探索具有远程建模能力的内容相关算法需要进一步提高性能。

ViT由于其卓越的远程建模能力,最近受到了越来越多的研究兴趣。然而,实验结果表明,阻碍其在HDR去重影上应用的两个主要问题。一方面,Transformer缺乏CNN固有的归纳偏见,因此在数据量不足的情况下进行训练时无法很好地概括,尽管HDR的可用数据集有限,因为收集大量真实的标记样本成本高昂。另一方面,帧内和帧间的相邻像素关系对于跨多个帧恢复局部细节至关重要,而纯Transformer对于提取这样的局部上下文无效。

本文提出的方法提出了一种新颖的上下文感知视觉转换器(CAViT),它通过双分支架构同时捕获全局和本地依赖。对于全局分支,作者使用一个基于窗口的多头Transformer编码器来捕获远程上下文。对于局部分支,作者设计局部上下文提取器(LCE),通过卷积块提取局部特征映射,并通过通道注意机制在多帧间选择最有用的特征。因此,提议的CA-ViT使局部上下文和全局上下文以互补的方式工作。通过与CA-ViT结合,提出了一种新的基于transformer的框架(称为HDR- transformer),用于无鬼影HDR成像。

具体而言,所提出的HDR- transformer主要由特征提取网络HDR重构网络组成。特征提取网络通过空间注意模块对浅层特征进行粗融合。早期卷积层可以稳定视觉转换器的训练过程,空间注意力模块有助于抑制不必要的偏差。HDR重构网络以提出的CA-ViT为基本构件、并分层地构成。CA-ViT模拟了长距离鬼影伪影和局部像素关系,因此有助于重建无鬼影的高质量HDR图像(示例如图1所示),而不需要堆叠非常深的卷积块。

文章贡献:

•提出了一种新的视觉转换器,称为CA-ViT,它可以充分利用全局和局部图像上下文依赖关系,相比之前的同类产品显示出显著的性能改进。

•提出了一种新型的HDR- transformer,能够消除鬼影,并以较低的计算量重建高质量的HDR图像。这是第一个基于transformer的HDR去鬼影框架。

•在三个具有代表性的基准HDR数据集上进行了广泛的实验,这证明了HDR- transformer相对于现有最先进方法的有效性。

提出的方法

0. 网络架构(HDR-Transformer)

HDR-Transformer的整体结构

HDR- transformer的整体结构主要由特征提取网络(图(a))和HDR重构网络(图(b))两部分组成。给定三幅输入图像,首先通过空间注意模块提取空间特征,然后将提取的粗特征嵌入到基于transformer的HDR重建网络中,生成重建的无鬼影HDR图像。

(a)特征提取网络首先通过空间注意模块提取粗特征。

(b)将提取的特征输入HDR重建网络,恢复HDR结果。HDR重构网络由几个上下文感知的变压器块(CTB)组成,CTB以所提出的CA-ViT为基本组件。

1. 特征提取网络

早期卷积层有助于稳定视觉Transformer的训练过程。对于输入图像 ,首先通过三个独立的卷积层提取浅层特征  。然后,将每个非参考特征(即   )与参考特征  连接,并通过空间注意力A模块计算注意力图   :

通过将注意力图乘以非参考特征  来计算注意力特征

 

其中⊙表示元素的乘法。

空间注意模块已被证明可以有效减少前景物体移动所引起的不希望看到的内容[39,19]。注意模块中的卷积层也可以增加后续Transformer层的归纳偏差。

2. HDR重构网络

主要由几个context-aware Transformer block (CTBs)组成。第一个CTB            的输入是从 中获得的,并嵌入到令牌嵌入中,其中D表示嵌入维数。HDR结果由N个后续CTBs一个后续卷积块重构。

作者还采用全局跳过连接来稳定优化过程。

3. 上下文感知Transformer块

当遭受由对象移动和重饱和引起的遮挡时,需要长距离上下文来移除相应的重影区域并产生合理的内容,而非遮挡区域可以通过卷积层很好地融合。为此,作者通过将提出的CA-ViT作为基本组件来开发上下文感知Transformer块(CTB)。为清楚起见,每个CTB包含M个CA-ViT。对于输入为 Fn,0  的第 n 个CTB,第 m 个CA-ViT的输出可以公式化为:

其中 Cn,m(.) 表示相应的CA-ViT。

然后,作者将第M个CA-ViT的输出馈送到扩展卷积层。使用扩张卷积层来增加上下文范围的感受野。也在每个CTB中采用残差连接以实现更好的收敛。因此,第 n 个CTB的输出公式为:

其中DConv(·)表示扩张的卷积层,M和N分别被经验地设置为6和3。

4. 损失函数

    由于HDR图像通常在色调映射后查看,计算色调映射域中的损失:

µ--定义压缩量的参数  并设置µ= 5000  —色调映射图像

仅采用像素损失(例如,    误差)先前方法不同,作者利用  损失和感知损失来优化所提出的HDR-Transformer。给定估计的HDR图像和真实HDR图像,  损失项定义为:

感知损失广泛用于图像修复,以改善视觉质量。作者还应用感知损失来增强重建的HDR图像的质量:

其中  表示从预训练的VGG-16网络中提取的激活特征图,j表示第j层,作者分析了消融研究中感知损失的有效性。最终,训练损失函数公式化为:

其中 λp 是超参数,设为0.01。

5. CA-ViT

作者提出了一种双分支上下文感知视觉Transformer(CA-ViT),它探索全局和局部图像信息。如图(a)所示,提出的CA-ViT由全局Transformer编码器分支和局部上下文提取器分支构成。

全局Transformer编码器

对于全局分支,使用基于窗口的多头Transformer编码器来捕获长距离信息。Transformer编码器由一个多头自关注(MSA)模块一个带有残差连接的多层感知器(MLP)组成。考虑到输入令牌嵌入E,全局上下文分支可以公式化为:

其中LN表示LayerNorm,  表示Transformer编码器捕获的全局上下文。

局部特征提取器

对于局部分支,设计了局部上下文提取器(LCE),以从相邻像素中提取局部信息 ,并选择用于融合的跨通道特征,其定义为:

具体而言,对于用LN层归一化的令牌嵌入 E,首先将其重塑为H*W*D,并使用卷积块来提取局部特征图。然后将局部特征平均合并为1*1*D的形状,并分别从两个线性层和一个ReLU和一个Sigmiod激活层计算通道方向权重 ω 。随后,通过信道方向校准从原始局部特征:

其中 σ1 和 σ2 表示ReLU和Sigmoid层,FC表示线性层。因此,局部上下文分支不仅将局部性添加到Transformer编码器中,还识别多个帧中信息量最大的局部特征以进行特征融合。最后,使用上下文融合层来结合全局和局部上下文。尽管可以使用其他变换函数(例如,线性或卷积层)来实现上下文融合层,但在本文中,作者通过逐元素来简单地合并上下文,以减少附加参数的影响。

实验与结果:略

总结与展望

在本文中,作者提出了一种双分支上下文感知视觉转换器(CA-ViT),它克服了传统ViT缺乏局部性的缺点。通过合并局部特征提取器扩展了标准ViT,因此全局和局部图像上下文可以同时建模。此外,还介绍了HDR-Transformer,这是一种用于无鬼高动态范围成像的特定任务框架。HDR-Transformer结合了Transformer和CNN的优点,其中Transformer编码器和局部上下文提取器分别用于对远程虚影工件和短程像素关系建模。大量的实验证明,所提出的方法达到了最先进的性能。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值