【同时完成超分和MEF】

最新推荐文章于 2023-10-31 21:35:53 发布

小郭同学要努力

最新推荐文章于 2023-10-31 21:35:53 发布

阅读量623

点赞数

分类专栏：图像融合文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_43690932/article/details/127929702

版权

图像融合专栏收录该内容

134 篇文章 82 订阅

订阅专栏

Deep Coupled Feedback Network for Joint Exposure Fusion and Image Super-Resolution

（用于联合曝光融合和图像超分辨的深度耦合反馈网络）

如今，人们已经习惯了拍照来记录自己的日常生活，然而，照片实际上与真实的自然场景并不一致。两个主要区别是，由于相机固有的成像限制，照片倾向于具有低动态范围 (LDR) 和低分辨率 (LR)。多曝光图像融合 (MEF) 和图像超分辨率 (SR) 是解决这两个问题的两种广泛使用的技术。然而，它们通常被视为独立研究。在本文中，我们提出了一种深度耦合反馈网络 (CF-Net) 来同时实现MEF和SR。给定一对低分辨率的曝光过度和曝光不足的LDR图像，我们的CF-Net能够生成具有高动态范围 (HDR) 和高分辨率的图像。具体来说，CF-Net由两个耦合的递归子网络组成，分别以LR过曝光和曝光不足的图像作为输入。每个子网络由一个特征提取块 (FEB)，一个超分辨率块 (SRB) 和几个耦合反馈块 (CFB) 组成。FEB和SRB将从输入的LDR图像中提取高级特征，这对于增强分辨率是有帮助的。CFB排列在SRB之后，其作用是从两个子网络的SRB中吸收学习到的特征，从而可以产生高分辨率的HDR图像。我们有一系列CFB，以逐步完善融合的高分辨率HDR图像。

介绍

多曝光图像融合旨在融合具有不同曝光水平的多个LDR图像，以生成具有高动态范围 (HDR) 的图像。根据所需的LDR图像数量，MEF方法可以大致分为两类: 非极端曝光融合和极端曝光融合。在非极端情况下，融合性能与可获得的LDR图像的数量高度相关。大量的LDR图像通常会导致更好的融合结果。然而，大量的LDR图像不可避免地增加了存储和计算复杂性。为了克服这个缺点，最近出现了一些极端融合作品，它们只需要一对极端曝光图像。由于极端曝光图像中的信息通常是隐式的，因此它们利用深度卷积神经网络 (CNNs) 来充分探索和融合这些信息。我们的工作也属于极端融合的范畴。单图像超分辨率 (SR) 旨在从单个低分辨率 (LR) 图像中恢复高分辨率 (HR) 图像。传统方法主要基于字典学习，其中分别针对LR和HR图像学习两个字典。LR和HR图像补丁需要在学习的字典上共享相同的稀疏表示，以实现SR。最近，通过CNNs强大的表示能力的壮举，已经开发了许多方法，使用深度学习来学习从LR到HR图像的复杂非线性映射，并且它们实现了最先进的性能。然而，尽管对MEF和SR进行了大量研究，但它们通常被视为两个独立的研究问题。
我们提出了一种称为耦合反馈网络 (CF-Net) 的深度神经网络，该网络旨在充分利用图像融合和超分辨率之间的交互和协作，仅从一对LR极度曝光的图像中生成HR融合的HDR图像。据我们所知，这是第一次提出端到端CNN框架，以同时实现最先进的MEF和SR性能。

贡献

1）我们提出了一种称为耦合反馈网络 (CF-Net) 的两分支递归网络，以同时实现极端曝光融合和超分辨率。我们的CF-Net旨在实现它们之间的协作和交互，而不是简单地级联这两个任务，从而大大提高了SR和融合性能。

2）我们设计了一种新的耦合反馈块 (CFB)，它是CF-Net的基本组件。CFB具有特殊的放大-缩小架构，可以接受来自曝光过度和曝光不足的LR图像的高级功能; 因此，可以保证SR和融合性能。

方法

图1显示了所提出的CF-Net的整体网络架构。可以看出，我们的CF-Net由两个耦合的递归子网络组成，其中LR过度曝光或曝光不足的图像作为输入。每个子网络包含一个初始特征提取块 (FEB)，一个超分辨率块 (SRB) 和几个耦合反馈块 (CFB)。具体来说，FEB旨在从LR输入中提取基本特征，以支持随后的SRB和CFB。
在这里插入图片描述
FEB由两个具有PReLU激活的卷积层组成: 第一层具有256个尺寸为3 × 3的滤波器，第二层具有64个尺寸为1 × 1的滤波器。第一层用于提取基本的LR特征，而第二层用于进一步集成交叉通道特征以使其更加紧凑。

在这里，我们采用 Li等人提出的反馈块架构作为我们的SRB架构。具体来说，它包含几个投影组，它们之间具有密集的跳过连接。每个投影组包括上采样和下采样操作。SRB学习的高级功能可以表示为:
在这里插入图片描述
其中f_SRB表示SRB的操作。在这里，G^o和 G^u分别是提取的过度曝光和曝光不足图像的高级特征。为了重建超分辨图像，我们使用重建块 (REC) 将G^o和 G^u映射到高分辨率图像。重建块由反卷积层和卷积层组成。考虑到跳过连接，通过将双线性上采样图像添加到重建的残差图像中，可以获得SRB之后的最终超分辨图像:
请添加图片描述
这里，f_UP表示双线性放大，而f_REC表示重建操作。REC块彼此不共享参数。
在这里插入图片描述
耦合反馈块 (CFB) 是CF-NET的核心组件，旨在通过复杂的网络连接同时实现超分辨率和图像融合。与前面提到的FEB和SRB分别只涉及一个块不同，我们使用了一系列相互连接的CGB，如图1所示，(t − 1)-第 (t>1) CFB的输出用作第t个CFB的输入。除了这个输入之外，第t个CFB还有另外两个输入。
请添加图片描述
在这里插入图片描述
这意味着我们接受SRB的输出作为第一CFB的输入。在公式(7)中的三个输入中。前两个输入对超分辨率性能的贡献更大，而最后一个输入则用于改善融合结果。这三个输入不是简单地串接到CFB中，而是具有精心设计的连接
请添加图片描述
在每个CFB之后，我们可以通过以下方式重建融合的SR图像:

在这里插入图片描述

Coupled Feedback Block (CFB)

耦合反馈块 (CFB) 是我们CF-NET的基本和核心组件。正如许多研究所验证的，反馈机制有助于图像恢复。在本文中，我们提出了一种耦合反馈机制，该机制被证明可以为图像超分辨率和图像融合任务带来巨大的好处。图2显示了提议的CFB的详细架构。尽管我们在网络中有一系列CFB，但每个CFB的体系结构都是相同的。在这里，我们以上层子网络中的第t个CFB为例，介绍其内部结构及其与其他块的相互作用。

如图2所示，在上层子网络中，第t个CFB接受三个输入: 由FEB提取的一个基本特征 $F^o$ _in，两个反馈特征 $G^o$ _t-1, $G^u$ _t-1来自先前的CFBs。这两个反馈功能具有不同的作用。具体来说， $G^o$ ~t − 1~是来自同一子网络的反馈特征，因此 其主要作用是校正基本特征 $F^o$ _in以提高SR性能 。相比之下，** $G^u$ ~t − 1~** 是来自另一个子网络的反馈，其 主要作用是带来互补信息以提高融合性能。这三个输入首先由一组1 × 1滤波器串联和融合，如下所示:
在这里插入图片描述
之后，我们使用一系列投影组重复执行以 $L^o$ _t (0) 为输入的放大和缩小操作，以提取更有效的高级特征。具体地，在每个投影组中，我们首先通过反卷积层进行上采样以获得HR特征图，然后通过卷积层进行下采样以生成LR特征图。我们使用密集连接来考虑所有先前的特征进行上采样和下采样。假设 $L^o$ _t(n)和 $H^o$ _t (n) 是第t个CFB中第n个投影组中提取的LR和HR特征图，我们可以得到 $H^o$ _t (n) 如下:
请添加图片描述

其中 $M^dec$ _n指示第n个投影组中的反卷积操作。正如我们从Eq（）13）中看到的那样。将所有先前的LR特征图级联以生成HR特征图。类似地，第n个投影组中的LR特征图 $L^o$ _t (n) 可以通过考虑所有先前的HR特征图来生成:
在这里插入图片描述
其中 $M^conv$ _n表示第n个投影组中的卷积运算。在这里，可以通过改变步幅大小来调整下采样比例。
如前所述， $G^u$ ~t − 1~作为来自对方子网络的反馈特征，主要负责提高融合性能。然而，我们发现，随着投影组数的增加， $G^u$ ~t − 1~的影响逐渐下降，导致不令人满意的融合结果。可能的原因是 $G^u$ ~t − 1~的记忆在长投影组后逐渐消失。为了加强 $G^u$ ~t − 1~的影响，我们不仅将其作为CFB开始时的输入，还将其嵌入投影组的中间，以重新刺激记忆。对于投影组的总数N，
在这里插入图片描述
最后，在N个投影组之后，我们从每个投影组中收集所有LR特征图，并使用一组1 × 1滤波器将它们融合在一起，以形成第t个CFB的输出，如下所示:
请添加图片描述

在这里，M_out表示使用一组1 × 1滤波器的卷积。第t个CFB的输出 $G^o$ _t具有两个流向。一方面，转t流到重建块以生成第t个CFB的融合HR图像。另一方面， $G^o$ _t被馈送到下一个 (t +1)-CFB作为输入，下一个CFB开始其学习过程。

(上述介绍了上层子网中的CFB。对于下部子网络中的CFB，它们具有与上部子网络中的CFB对称的体系结构。图2显示了上下子网络中CFB的关系)

Loss Function

1) Mean Structural Similarity Index Metric:
在本文中，我们采用了平均结构二度指标 (mean dtructural dimilarity index metric (MSSIM)) 损失来以端到端的方式训练网络。MSSIM起源于SSIM，它最初是由Wang等人提出的测量失真图像补丁和参考图像补丁之间的差异。与均方误差 (MSE) 相比，它可以更好地描述图像的感知质量。给定失真的图像补丁x和参考图像补丁y，SSIM由以下公式定义: 在这里插入图片描述
上述公式只能计算补丁级别的SSIM值。为了在图像级别测量SSIM值，我们需要使用MSSIM，它是通过对补丁中的所有SSIM值进行平均来计算的:

2) Loss Function:
由于我们的工作旨在同时实现超分辨率和图像融合，因此我们设置了分层损耗约束以保证网络的训练效率。我们的CF-NET的总损失函数定义如下:
在这里插入图片描述
Eq(20) 中的损失函数可以分为两部分。前两个损失用于保证SRB的有效性，而最后一个损失用于确保每个CFB都能正常工作。换句话说，前两个损失是为了确保超分辨率性能而形成的，而最后一个损失是为了同时保证超分辨率和曝光融合性能而构造的。前两次损失也是最后一次损失的重要基础。通过最小化Eq(20)中定义的损耗，以端到端的方式训练整个网络。使用训练好的模型，在测试阶段，我们应用Eq(11) 获取最终输出图像。