CVPR 2023 Context-aware Pretraining for Efficient Blind Image Decomposition 个人学习笔记

最新推荐文章于 2024-06-21 08:36:45 发布

追梦Hocking

最新推荐文章于 2024-06-21 08:36:45 发布

阅读量1.1k

点赞数

文章标签：学习笔记

本文链接：https://blog.csdn.net/zhouaho2010/article/details/134714721

版权

Abstract

在本文中，我们研究了盲图像分解（BID），即在不预先知道噪声类型的情况下，同时均匀地去除多种类型的退化。仍然存在两个实际的挑战： (1)现有的方法通常需要大量的数据监督，这使得它们在现实场景中不可行。(2)传统的范式通常侧重于挖掘叠加图像的异常模式来分离噪声，这实际上与主要的图像恢复任务相冲突。因此，这样的管道会降低修复的效率和真实性。为了一次性解决这两个挑战，我们提出了一种高效和简化的范式，称为上下文感知预训练（CP），其中有两个借口任务：混合图像分离和掩蔽图像重建。这种范式减少了注释需求，并明确地促进了上下文感知的特征学习。假设恢复过程遵循一种结构到纹理的方式，我们还引入了一个上下文软件预训练网络（CPNet）。特别是，CPNet包含两个基于变压器的并行编码器、一个信息融合模块和一个多头预测模块。信息融合模块明确地利用了空间通道维度中的相互关联，而多头预测模块促进了文本引导的外观流。此外，还部署了一个新的采样损失和一个属性标签约束，以利用空间上下文，导致高保真的图像恢复。在真实和合成基准上的大量实验表明，我们的方法在各种投标任务中具有具有竞争力的性能。

1. Introduction

与传统的图像恢复不同，盲图像分解（BID）的目的是去除任意的不知道噪声类型和混合机制的直接组合。这项任务具有挑战性，因为不同的噪声和不同的混合模式之间的巨大差距，随着合并噪声的增加。虽然许多现有的方法[30,54,61,62]已经被提出作为通用的恢复网络，但它们仍然对单个数据集进行了微调，并且没有对所有的噪声去除任务使用单一的通用模型（图1 (a)）。一体机[28]进一步提出了一个跨3个数据集的统一模型，但它仍然使用计算复杂的独立编码器（图1 (b)）。为了改善这一问题，全天候[49]引入了一个单编码器-单解码器变压器网络，用于多类型的不利天气去除，但该方法旨在一次性恢复一个特定的退化（图1 (c)），这不符合BID设置。

图1。恢复框架的原型： (a)传统方法[61,62]需要特定任务的网络设计和单独的训练。(b)一体机[28]依赖于繁琐的多头一对一训练。(c)转基因[49]是特别的，以消除一个特定的噪音一次。(d) IPT [4]使用一个可重用的预训练的中级转换器扩展了(c)，它只工作于特定的任务。(e) BIDeN [17]返回到复杂的多解码器，并要求来自噪声标签的密集监督。(f)所提出的方法研究了通过利用在预训练过程中学习到的先验知识来去除一般的噪声组合，这在很大程度上简化了管道。（请放大以查看详细信息。）

最近，Han等人[17]提出了一种盲图像分解网络（BIDeN），首次探索了BID任务的可行解决方案。该方法直观地考虑了一个损坏的图像由一系列叠加的图像组成，并提出了一个基于cnn的网络来分离这些成分。特别是，BIDeN设计了一个与单独的解码器结合的多尺度编码器。但是，该网络仍然需要繁琐的训练，因为每个组件都有多个解码器，包括噪声掩码，这影响了主要的恢复任务（图1 (e)）。此外，考虑到特定任务的数据在某些情况下（如医疗和卫星图像）可能会受到限制，这种深度学习的模型迫切需要数据。此外，各种不一致的因素（如摄像机参数、照明和天气）会进一步干扰捕获的训练数据的分布。为了解决数据的局限性，IPT [4]首先探索了几个图像处理任务的预训练方案。然而，由于中间的转换器不学习共享的代表性特征，IPT仍然局限于特定于任务的细节。

本文旨在解决上述挑战，作为一个有效和健壮的现实世界恢复框架的一步。受蒙面自动编码器（MAE）的成功启发，ImageNet上的预训练模型可以有效地适应高级具有代表性的视觉基准，如识别和检测[18,57]，我们认为预训练仍然是BID任务的潜在解决方案。我们还注意到，在低水平视觉任务中对MAE的预训练仍未得到充分探索。为了填补这一空白，我们通过自监督学习进行模型预训练，以获得足够的代表性先验。

在本文中，我们提出了一种新的上下文感知预训练（CP），它包含了对损坏图像的分离和重建。如图3所示，借口任务被设计为一个将混合图像分离和掩蔽图像重建相结合的双分支模式。我们在所提出的任务背后的直觉是鼓励网络挖掘上下文信息（即噪声边界和类型，局部和非局部语义），这些知识可以很容易地转移到各种恢复场景中。我们还使用变压器架构开发了一个针对BID的预训练模型，即具有上下文感知能力的预训练网络（CPNet）。与以往的方法相比，所提出的CPNet可以(1)一次性去除任意类型或组合的噪声，(2)避免对每个源组件的多头掩模监督（图1 (f)），(3)有效地用于微调后的高保真恢复，如图2所示。据我们所知，这项工作为应用自我监督的训练前学习策略提供了第一个框架。同时，这两个分支与一个信息融合模块分层连接，该模块通过多尺度的自注意明确地促进了特征交互。此外，我们在训练前将恢复过程划分为结构重建和微调过程中的纹理细化，从而抑制了学习困难。在之前的方法中，我们的方法不是简单地学习混合模式并按比例缩放像素值，而是直观地赋予模型更多的“想象力”，从而在复杂场景下获得更引人注目和鲁棒的性能。此外，还引入了一种结合条件属性损失的流量采样损失，以实现精确、可靠的盲图像分解。

图2.在峰值信噪比（PSNR）性能和参数数方面，建议方法与现有方法的比较。我们可以观察到，我们的方法的单个模型实例在更少的参数下显著优于单任务和多任务网络。

图3。对拟议的具有上下文感知能力的预培训框架的概述。(1)在训练前阶段，我们在干净的图像中添加一个随机旋转的任意退化组合。将此损坏的图像作为输入，部署两个并行变压器编码器，同时进行掩蔽图像的分解和重建。为了学习更多的上下文感知的先验知识，两个编码器的特征首先通过一个信息融合模块进行交互。然后设计了一个多流预测水头，分别生成修复后的结构和纹理导向的外观图。(2)在微调阶段，我们修复了预先训练好的双分支编码器，并且只在特定的成对数据集上从头开始训练一个参数高效的细化网络。

总体而言，我们的贡献总结如下：Overall, our contributions are summarized as follows:

与现有的BID工作不同，我们引入了一种新的自监督学习范式，称为上下文软件预训练（CP），它有两个借口任务：混合图像分离和掩蔽图像重建。为了便于特征学习，我们还提出了上下文感知的预训练网络（CPNet），该网络得益于所提出的信息融合模块和用于文本引导的外观流和条件属性标签的多头预测模块。
在投标基准上的大量实验证明，我们的方法在盲像恢复方面具有具有竞争力的性能。更重要的是，我们的方法在效率方面始终大大优于竞争对手，例如，与BIDeN [17]相比，流量减少3.4×，推理时间快50×。

2. Related work

Blind image decomposition. 盲图像分解。针对单任务的限制，一些修复工作[13,17,70]讨论了新兴的图像分解任务，将雨滴和其他现实世界的腐败与一个干净的图像进行叠加和可分离。 Gandelsman首先提出了一种基于耦合DIP [48]网络的层分解统一框架双DIP[13]。DAD [70]进一步引入了三个鉴别器和一个在更复杂的混合条件下的交叉路L1损失。基于盲源分离问题[15,16,27]，Han等人进一步提出了“盲图像分解”（BID）[17]设置，该设置将退化图像视为单个组件的任意组合，旨在同时解决多类型退化问题。然而，BID的训练范式仍然严重依赖于耗时的端到端重建。相比之下，我们的预训练方法只依赖于简单的纹理微调，而不需要额外的辅助标签。

Self-supervised learning for image restoration. 图像恢复中的自监督学习。监督学习需要大量的配对参考，将输入测量值映射到干净的图像[20,21,41,63,65]，当噪声模型未知时，这很难得到满足。为了克服这一问题，提出了几种基于不同借口任务的自监督方法[6,47,50]。DIP [48]首先证明了一个简单的生成器可以充分重建低级图像统计先验，从而产生了多种模型，避免了退化过程[2,24,26]的建模。然而，由于不同退化变化的限制，这些方法只能修复单个任务或需要重复训练。相比之下，我们的方法将这个过程分为两个借口任务，即定位和生成，从而用一个统一的模型同时去除各种噪声。

Pretrained vision transformers.近年来，变压器已适应于许多视觉任务，如识别[10,60]和分割[56,66]。由于令人印象深刻的性能，它也被引入到低级视觉问题，如图像恢复[30,54,61]。为了进一步利用从变压器中学习到的先验知识，IPT [4]提出了一种通用的预训练方案，但该方法仍然需要复杂的多头训练。[18,57]还利用了掩蔽图像建模（MIM）[1,5,69]范式，并探索了一个用于高级表示学习的生成式预训练框架。然而，很少有相关的工作关注于利用自我监督的预训练变压器进行低级视觉任务。与以往的工作相比，我们的目标是将自监督图像分解与掩蔽重建先验相结合，以促进更普遍和有效的盲图像恢复。

3. Method

在这项工作中，我们提出了一个双路径预训练框架，其中包含两个并行变压器编码器、一个信息融合模块和一个多头预测模块，如图3所示。为了避免特征融合过程中的早期信息泄漏，我们对有噪声的图像补丁进行随机掩蔽，而不是将干净的图像作为另一个借口任务。所建议的模块和目标函数的细节表示如下。

3.1. Information Fusion Module 信息融合模块

在本研究中，我们鼓励分离分支通过定位叠加的噪声来学习更多的空间信息，而重建分支则通过预测相邻斑块的掩蔽标记来利用更多的生成先验。因此，我们有意地促进了EA的空间敏感性以及EB的内容生成性，在两个网络之间建立了一个复杂的权衡。为了明确地利用和进一步增强这种平衡，我们提出了一个多维融合模块，它由特征交互块（FIBlock）、细化块（FRBlock）和增强块（FEBlock）组成。

Feature interaction block.功能交互块。虽然这两个并行的编码器应该专注于他们各自的任务，但他们在训练期间分享一些相互关联。例如，从EA中学习到的噪声的空间特征可以相反地表示EB的未损坏内容，反之亦然。因此，我们引入了同时具有通道和空间注意的FIBlock来增强特征交互作用，如图4 (a).所示我们还部署了考虑效率的剩余瓶颈[11,19]结构。

图4.我们的信息融合（左）和多头预测（右）模块的架构。F i A和F i B分别表示EA和EB的第i层的特征，它们是FIBlock的输入。然后将每个编码器的几层的特征F i（i = 2,3,4）进一步发送到FRBlock。经过细化后，来自两个编码器的特征被发送到FEBlock以进行目标增强。

Feature refinement block.功能细化块。为了进一步细化从两个编码器中学习到的特征，提出了基于自注意机制[53]的FRBlock。FRBlock的细节如图4 (b)所示，可以表述为：

其中d为查询集Q的维数，Poola为核大小、核大小和步幅a的平均池化操作，Fi表示EA或EB第i层的特征映射。为了在融合金字塔表示时进行高效的非局部计算，将更高层次的特征映射合并，然后在单个卷积层后直接输入FRBlock，这显著降低了计算和内存强度，同时提高了鲁棒性。

Feature enhancement block. 根据 inver sion theory 反演理论[3,37]，可以知道不同的对象通常对应于不同的通道（卷积核）。在此基础上，我们进一步引入FEBlock来经验增强EA特征的空间相关性，以及EB的信道特征。我们采用了瓶颈注意模块[38]，并通过多重池化[55]和残差连接进一步改进了它（图4 (c)）。值得注意的是，我们使用特性而不是添加它们，因为两个编码器都相互交互。

Transformer encoder. 由于该方法主要集中于两个任务之间的特征处理，因此编码器的选择可能相对简单。在本文中，我们采用与修复[61]相同的设置，包含许多轻量级模块以提高效率。请注意，在我们的框架中的变压器设计可以是任何尖端的组合，如swin结构[33]。更多的讨论可以在附件中找到。

3.2. Multi-head Prediction Module 多头预测模块

为了配合双路径预训练框架，我们分别对结构图和外观流程进行了多头预测，如图4所示。

Structure flow. 结构流程。在视觉任务中，与普通识别任务相比，解码器重构具有较低层次语义的像素，这意味着网络设计对于确定学习到的潜在表征[18]的语义级别至关重要。在此分析的驱动下，我们设计了一个简单而有效的结构头，它由一个重置块[19]和几个卷积层组成。为了进一步简化训练目标，我们采用了一个边-保留光滑法[58]去除Igt的高频纹理，同时保留全局结构。重建损失定义为预测结构Sgen与从Igt平滑出来的地面真实结构Sgt之间的ℓ1距离：

同时，为了模拟目标结构Sgt的分布，我们进一步应用了生成对抗框架[14]。对抗性损失可以写成：

其中，Diss是结构头的鉴别器。

Conditional learning. 受图像翻译作品[7,68]的启发，BID也可以看作是一个具有初始随机单热属性标签的属性编辑任务。因此，我们为条件属性分类任务设计了一个鉴别器分支Disa：

这里的Pi (x)表示x属于第i个属性（噪声类型）的概率，这是由Disa用参数θDisa预测的。与以往的多头方法[4,17,28]相比，该条件鉴别器隐式地实现了具有统一结构的多重噪声恢复，从而具有更高的灵活性和训练效率。同时，我们还证明了统一的属性机制可以通过简单地指定属性标签来选择性地删除任意的退化类型。

Appearance flow.外观流程。在获得重建结构Sgen的同时，进一步部署了一个外观流头来扭曲提取的输入特征，如图4所示。基于[43]中的外观流，我们进一步引入了一种新的采样损失，以同时促进局部纹理传播和全局结构校准，它可以表述如下：

其中ΦIgt和ΦIin为地面真实图像Igt和输入的损坏图像Iin上的特定层生成的特征。（∆x，∆y）表示与外观头的预测坐标偏移量。µ（∗）表示余弦相似度，Ω表示包含ΦIin中所有有效坐标的坐标集。N是集合Ω中的元素数。由于随机噪声的位置未知，我们的流采样损失均匀地计算每个区域的地面真实特征与采样特征之间的相对余弦相似度。然而，没有面具监督的外观流训练可能很难捕获全局依赖，并陷入一个糟糕的局部最小[34,42]。为了解决这个问题，我们进一步在结构Sgt和Sgen之间施加一个全局约束作为一个额外的标准化项。α表示固定为10的比例参数，ϵ为常数项。我们还采用高斯采样[43]来扩展接受域。

通过这种方式，强制执行外观流程图，以确定当前采样区域是否未损坏，以及哪个损坏的块在纹理中与该区域最匹配。结合可学习的相对位置嵌入[46]，进一步保证了噪声的位置校准，包含生动纹理的特征可以“流动”到破坏区域。纹理头与结构头具有相似的结构。关于模型结构和抽样操作的更多细节在附件中提供。

3.3. Fine-tuning and Optimization

在预训练过程中，我们共同将并行编码器E、多头解码器H和多头鉴别器Dis优化到目标，即以下损失的加权和：

其中，λℓ1和λsam为正则化参数。在我们的实验中，我们设置了λℓ1=4和λsam = 0.25。在预训练之后，我们可以简单地微调一个类似自动编码器的网络，以生成更详细的纹理。微调过程中的损失函数由标准的ℓ2重建损失和感知损失[22]组成。我们还测试了解锁多头预测部分，以获得更好的性能。更多关于微调的更多细节在附件中给出。

4. Experiment

我们进行了大量的实验来证明我们所提出的方法的有效性。在接下来的内容中，我们解释了实验设置，实施细节，与最先进的方法和消融研究的比较。

4.1. BID Tasks and Datasets

在不丧失一般性的情况下，我们采用大规模的ImageNet数据集[44]作为预训练集，它包含超过1M的图像和1K个场景。我们用总共7种退化类型的随机混合组合生成损坏的图像：降雨条纹[29,59]、雨滴[39]、雪[32]、shaze[45]、阴影[40,51]、反射[64]和水印[31]。根据BIDeN [17]中的类似设置，我们评估了三种最常见的噪声组合下的性能： I：联合雨滴/雨条纹/雪/雾霾去除，II：现实世界的恶劣天气去除，以及III：联合阴影/反射/水印去除。

4.2. Implementation Details

在ImageNet的整个预训练阶段，我们使用4个NVIDIA特斯拉V100图形处理器和传统的Adam优化器[23]，β1=0.9，β2=0.999，同时用于EA和EB。该模型在ImageNet [44]上进行了80个时代的预训练，初始学习率为5e−4，在50个时代为32个批次后衰减到2e−4。经过预训练后，我们在BID数据集[17]上对30个时代的细化模型进行了微调，学习速率为3e−4。随机裁剪和水平翻转被随机应用作为数据增强。为了进行公平的比较，我们部署了与BIDeN [17]中相同的评估设置。更多关于噪声构造、数据集和实验设置的细节在附录中给出。

Reproducibility。我们将在1发布Pytorch和桨版本实现。

4.3. Comparison with SOTA

任务一：我们首先在城市景观[8]上执行BID任务。在相同的BID设置下，采用单任务和多任务两种方法进行了实验。表1和图5显示了比较在我们的方法和基线之间。可以看出，特定任务的方法MPRNet [62]和恢复器[61]在(1)和(2)的单类型噪声下表现良好，但在更复杂的情况下性能迅速下降。一体化[28]的表现稍好一些，因为多头编码器在BID训练中学习了更多的通用特征。BIDeN [17]能够处理更复杂的情况，而在案例(1)和(2)中的性能受到BID训练设置和特征学习不足的限制。相比之下，我们提出的方法在所有情况下都能通过并行编码器的上下文感知学习来获得竞争性能。更重要的是，我们的方法在复杂条件下保持了更高的通用性，例如，案例(6)的29.57 PSNR仍然高于案例(2)的BIDeN的29.34 PSNR。在每种情况下提供了更多的结果。

表1.驾驶情景中任务I的定量结果。我们评估性能峰值信噪比（PSNR）和结构相似性（SSIM）在6投标情况下，(1)：降雨，(2)：降雨+雪，(3)：雨+轻雾，(4)：雨+重雾，(5)：雨+适度霾+雨滴，(6)雨+雪+适度霾+雨滴。每种情况下的最佳性能用粗体标记，第二个性能下划线。

图5：几种混合情况下驾驶情景下任务I的定性结果。第1-4行分别表示表1中显示的情况(3)-(6)。对于所有的情况，我们的模型都可以产生更精确和更忠实的图像。（请放大以查看详细信息。）

任务二：进一步验证该方法的泛化性能，我们也进行实验真实自然图像相同的雨纹，雨滴和雪面具从任务我我们分别训练BIDeN[17]3情况下，(1)：特定任务的面具，(2)雨+雨滴，(3)雨+雨滴+雪。然后我们在每个单个模型上测试这些训练过的模型类型退化。训练集和测试集均来自BIDeN [17]。性能通过无参考指标NIQE [36]和BRISQUE [35]进行评估。一个特定于任务的方法MPRNet [62]也被部署作为基线。如表2和图6所示，BIDeN和我们的方法在单任务恢复上都表现良好。然而，当对一个特定的任务应用多头训练模型时，BIDeN的性能可以观察到显著的下降，例如，在去除雨滴方面，性能下降了0.93（从20.29下降到21.22）。这主要是因为训练过程中的多元目标回归源于对编码器更有代表性的学习。相比之下，该方法在每个任务上都保持稳定，表明了在各种噪声组合下的训练鲁棒性。有关更多的结果，请参阅补充资料。

图6。在任务二的SPAData [52]上对真实世界的雨条纹去除的视觉比较。BIDeN (1)表示用单型雨滴掩模训练的两头网络，BIDeN (3)表示用条纹+雨滴+雪训练的四头结构。

任务三：我们还在任务II中使用类似的设置进行了其他退化的实验。我们将阴影去除结果与SRD [40]数据集上的BIDeN和几个特定于任务的阴影去除基线[9,12]进行了比较，如表3和图7所示。在单类型阴影去除任务中，也出现了类似的性能下降，而我们的方法即使与特定任务的方法也始终保持可比性。我们也视觉确定图7中的多头输出的大小。可以观察到，我们的预训练模型可以产生一个恢复的结构。同时，外观流不仅可以找到噪声的位置，还可以指示纹理特征的采样方向。更多的视觉比较见补充部分。

图7.预训练和微调过程中输出的可视化。为了可视化外观流场，我们绘制了典型缺失区域的部分样本点。箭头表示外观流的方向。请放大以查看详细信息。

4.4. Discussions

探索两个编码器的角色在联合学习，我们也可视化的激活地图功能从编码器如图8，可以清楚地看到，EA主要关注面具区域更好的修复完整性，而EB更关注全球上下文更好地修复真实性。更重要的是，受益于在掩码类型上部署属性标签，我们提出的方法可以去除特定类型的退化，同时保持其他噪声不变。

Ablation study. 我们进行了一项消融研究，以了解在本文中提出的单个成分的贡献。定量结果可以在表4中找到.我们从联合预训练方案开始，通过禁用每个编码器和FIBlock。从表4中可以得出结论，高质量的绑定图像分解需要两个并行编码器共同学习互补的空间语义信息。恢复后的图像在没有EA的情况下往往会保留一些缺失的噪声，而在没有EB的情况下会产生更多的伪影。我们还对信息融合模块和损失函数进行了消融，可以观察到每一项工作的贡献都有助于提高性能。

Pre-training dataset.。我们还探索了利用定制的数据集进一步加速预训练的可能性。首先，我们在同一BID数据集上对模型进行了预训练和微调。如表5所示，我们发现在像ImageNet这样的更大、更多样化的数据集上进行预训练可以获得更好的性能。其次，我们从每类ImageNet中随机抽取10%的图像进行任务i的预训练，可以观察到我们的预训练方法仍然具有竞争的性能。最后，我们在ImageNet中选择了100种场景图像进行汽车和建筑等预训练。我们还构建了另一个预训练数据集，包含100种不相关的物体图像，如运动和食物。我们发现，如果预训练数据集的数据分布接近于目标微调数据集，则其性能将会显著提高。这一现象进一步提出了一个有趣的潜在方向。我们可以收集一个较小但一般的数据集和合理的类，以节省未来的总训练时间成本。

Efficiency.在图2中，我们比较了参数的数量。我们还比较了表6中的flop和推理时间效率。报告的时间对应于每个模型在推理阶段使用维度为256×256的测试图像的平均时间。我们注意到，我们的方法比当代的SOTA方法BIDeN要快得多（比BIDeN超过50个×）。

Limitations. 需要注意的是，该方法主要关注于常见的附加噪声叠加场景，这可能会导致复杂的背景附加场景（如大雨、失焦去模糊[25]或无人机图像[67]）中的语义失真，如图9所示。

图9.故障案例。请放大以查看详细信息。

5. Conclusion

在本文中，我们提出了一种新的上下文感知预训练范式（CP）。与以往的方法不同，我们阐明了自监督预训练在一次去除多个一般噪声的可能性。在预训练过程中，CPNet模型设计了两个纠缠编码器来处理不同的图像处理任务，即混合图像分离和掩蔽图像重建，用于联合上下文感知学习。在7个具有代表性的恢复任务和3个BID任务上的实验表明，CPNet在图像恢复质量和效率方面始终促进了最先进的性能。

追梦Hocking

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2023 Context-aware Pretraining for Efficient Blind Image Decomposition 个人学习笔记

图1。恢复框架的原型： (a)传统方法[61,62]需要特定任务的网络设计和单独的训练。(b)一体机[28]依赖于繁琐的多头一对一训练。(c)转基因[49]是特别的，以消除一个特定的噪音一次。(d) IPT [4]使用一个可重用的预训练的中级转换器扩展了(c)，它只工作于特定的任务。(e) BIDeN [17]返回到复杂的多解码器，并要求来自噪声标签的密集监督。(f)所提出的方法研究了通过利用在预训练过程中学习到的先验知识来去除一般的噪声组合，这在很大程度上简化了管道。（请放大以查看详细信息。）
复制链接

扫一扫