读论文：TSJNet

Ron Wealthy

于 2024-09-02 18:30:44 发布

阅读量675

点赞数 8

文章标签：人工智能计算机视觉 transformer YOLO 深度学习目标检测

本文链接：https://blog.csdn.net/weixin_60150713/article/details/141817259

版权

TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven Image Fusion Network

Abstract

多模态图像融合涉及将不同模态的互补信息集成到一张图像中。目前的方法主要集中在使用单个高级任务来增强图像融合，例如将语义或对象相关信息合并到融合过程中。这种方法在同时实现多个目标方面带来了挑战。我们引入了一个名为 TSJNet 的目标和语义感知联合驱动融合网络。TSJNet包括以串联结构排列的融合、检测和分割子网络。它利用从双高级任务派生的对象和语义相关的信息来指导融合网络。此外，我们提出了一种具有双并行分支结构的局部显着特征提取模块，以完全捕获跨模态图像的细粒度特征，并促进模态、目标和分割信息之间的交互。我们对四个公开可用的数据集（MSRS、M3FD、RoadScene 和 LLVIP）进行了广泛的实验。结果表明，与最先进的方法相比，TSJNet 可以得到很好的的融合结果，目标检测和分割 mAP@0.5 和 mIoU 的平均分别提高了 2.84% 和 7.47%。

1. Introduction

多传感器集成系统在智能技术中是必不可少的，包括无人机(UAV)精密作战和自动驾驶。随着传感器制造的改进，多模态图像对复杂现实世界场景分析的全面使用变得越来越重要。广泛使用的可见光和红外传感器有自己的局限性。虽然可见光传感器很难在弱光条件下有效地突出目标，但红外传感器不会受到这个问题的影响，提供低场景分辨率，捕捉纹理细节很差。幸运的是，多模态图像融合 (MMIF) 可以通过从多源合成数据来解决这些问题，补偿单模态数据中的信息丢失，增强人类和机器视觉的理解和感知。此外，MMIF有望生成更准确目标和场景的表示，对语义分割和目标检测等下游任务产生积极影响。

最近，深度学习 (DL) 的特征提取能力导致了基于 DL 的 MMIF(Multimodal Medical Image Fusion) 方法的出现。然而，这些方法有两个问题。首先，模态差距太宽，无法有效地提取跨模态特征。其次，许多方法忽略了下游任务与融合过程之间的相互强化。我们的研究引入了一个更合理的框架，旨在促进MMIF、图像分割和目标检测的性能增强。

对于第一个问题，一些网络中信息传递的内部结构的关注不足，导致细节丢失。因此，考虑交互和独立的特征来提高特征提取的性能是我们模型的一个关键。采用红外和可见光图像融合(IVIF) 例如，两个模态图像获取相同的场景，因此基本信息，如物体的大尺度轮廓，属于交互特征。红外图像的热辐射和可见图像的纹理边缘是独立的特征。充分提取双峰图像特征可以充分利用整体细节和局部细节。

对于第二个问题。有价值的MMIF模型在现实生活场景中生成高质量的图像，并促进下游任务。尽管一些方法表现出良好的融合性能，但它们几乎没有考虑在下游任务和图像融合之间实现相互增益，这对于实际的计算机视觉应用至关重要。这些融合模型强调确定不同模态图像之间的共性，而忽略了显着对象呈现、背景和语义信息之间的差异。有趣的是，最近的一些研究建立了图像融合与目标检测或语义分割之间的联系。他们使用额外的语义分割或目标检测网络将必要的语义或检测信息嵌入到融合网络中。但是，没有关注同时使用两者来促进融合网络。为了填补这一空白，我们模型的最关键的方面是建立一个同时由分割和对象检测感知驱动的 MMIF 框架，从而允许所提出的模型显着改进 MMIF 任务。

值得注意的是，融合网络的常见结构利用了归纳约束，并且在挖掘和整合跨模式内和整合全局上下文信息方面受到限制。然而，注意力机制可以提取上下文和模型依赖关系之间的广泛交互，而不考虑它们在输入或输出序列中的距离，这已被证明在多个视觉相关挑战中显示出令人鼓舞的结果。因此，目标是建立一个融合模型，该模型结合了 CNN 和注意力机制的优势来提高 MMIF 性能。

为了实现这些目标，我们提出了一种多特征学习多模态图像融合网络，该网络具有分割和检测驱动因素。该网络包括三个部分：首先，基于具有拆分注意 (ResNeSt)的残差网络采用自动编码器 (AE) 模块进行交互特征提取。此外，基于 AE 的网络表现出良好的重建性能。其次，基于所提出的局部显着特征提取模型（LSM）的特征融合模块。第三，引入常见的语义分割和目标检测网络对融合特征进行细化，提高整体融合性能。下图显示，与七个最先进的 (SOTA) 相比，TSJNet 具有最佳的融合方法。

我们提出了一个由检测和分割任务驱动的MMIF网络。与现有的融合方法不同，这是第一次将两个高级任务同时包含在融合网络中。
我们开发了具有并行双分支的 LSM 来充分提取局部细节，从而提高融合网络的灵活性并提高互补属性特征的集成。
我们在 MSRS、M3FD、LLVIP 和 RoadScene 数据集上使用所提出的 TSJNet 进行图像融合、语义分割和检测实验。与七种先进的融合方法相比，我们的模型具有显着的优势。

2. Related works

3. The proposed TSJNet

3.1. Motivation

应用领域，如自动驾驶和多模态图像处理，需要目标检测和语义分割算法，实现准确的场景理解和目标识别。MMMIF 可以满足围绕时钟运行的实际应用的要求。尽管最近的研究强调了增强图像的细节或对比度，但它们经常忽略了图像融合对下游任务的影响。语义分割的目的是区分图像中具有不同语义属性的区域，而目标检测需要对象的定位和识别。毫无疑问，捕获高级语义和目标信息比只关注细粒度的图像细节更关键。因此，我们提出了一个融合模型，该模型受益于语义和对象相关信息。

3.2. Problem formulation

为了便于解释，整体算法如图2所示，

算法将在下面详细描述，以IVIF为例。图像检测、分割或融合任务的流行方法包括创建一个神经网络，使其中大部分是确定一组理想的参数。为此，假设红外、可见光和融合图像的尺寸为 $p\times q$ ，我们将它们表示为单个向量 $x,y,u\in \mathbb{R}^{p\times q\times l}$ 。 $l$ 是通道数。优化框架定义： $\underset{\theta_{t}}{min}f(t,\chi(y;\theta _{t}) )$ 。其中 f (·) 表示匹配项，t 表示任务特定网络 X 产生的结果，可调参数表示为 θt。

为了生成视觉上好的融合图像，同时获得精确的场景分割和目标检测结果，我们将这三个任务集成到一个统一的目标中，可以表示为 $\underset{w_{u},w_{d},w_{s}}{min}f_{u}(u,\Phi (X,w_{u}))+f_{d}(d,\Psi (Y,u,w_{d}))+f_{s}(s,\Theta (u,w_{s}))$ 其中u、d和s分别为融合网络Φ、检测网络Ψ和分割网络Θ生成的融合结果、检测对象和分割图。

综合网络框架。下图描述了 TSJNet。我们的模型体现了双驱动原理，将子网络用于图像融合;采用ResNet101和Faster R-CNN[27]的DeepLabV3+作为基线检测和分割模型，提供目标检测和分割信息。

3.3. Details of TSJNet

我们建立了一组符号来提高公式的精度。我们表示成对的输入图像，特别是红外和可见光图像，分别为 $I\in \mathbb{R}^{p\times q}$ 和 $V\in \mathbb{R}^{p\times q\times 3}$ 。

3.3.1 Encoder,

编码器由两部分组成：基于 ResNeSt块的编码器和基于卷积层的特征细化块, 基本 ResNeSt 编码器 (BRE)。编码器从 I, V 中提取层次特征 FBI , FBV ，即， $F_{i}^{B}=BRE(I),F_{v}^{B}=BRE(V)$ 。ResNeSt 中的拆分注意块利用了多路由描述和特征图注意力提供的协同作用优势，增强了特征表示。这允许模型自适应地调整特征图，专注于关键通道和空间位置来捕获不同特征之间的复杂交互。因此，我们使用 ResNeSt 作为编码器的一部分来增强其促进红外和可见图像之间复杂交叉特征交互的能力。

3.3.2 Fusion Layer

LSM。由于不同模态图像的细粒度特征存在显着差异，因此提出了一种具有并排双分支结构的特征提取块来提取跨模态特征提取过程中的重要局部信息。LSM由一个基于滑动窗口的邻域注意转换器(NAT)和提出的细节显著性模块(DSM)组成。

NAT的邻域注意(NA)将每个像素的注意范围定位到其最近的邻居，随着范围的增加，收敛到自我注意，保持平移不变性，缓解了自注意机制在视觉任务。此外，它比独立的自我注意和Swin Transformer具有更高的效率。

DSM 旨在增强模态结构属性的表示。 Fc 可以在卷积层之后获得，并结合两个不同的特征提取分支形成特征提取模块。一个分支同时执行平均池化和最大池化，以将细节的提取与全局信息同步。在双重池化之后，使用全局平均池化进一步扩展特征。随后，通过分配两个全连接层和一个 sigmoid 层来计算不同通道的权重，这增强了特征描述的重要性。将这个分支与另一个残差分支相加，可以从红外图像中提取更显着的信息和来自可见图像的结构信息。表达式如下： $\left \{ F_{i}^{d},F_{i}^{n} \right \}=L(F_{i}^{B}), \left \{ F_{v}^{d},F_{v}^{n} \right \}=L(F_{v}^{B})$ ,其中 $F_{i}^{d}$ 和 $F_{i}^{n}$ 是 $I$ 的局部和显着特征， $F_{v}^{d}$ 和 $F_{v}^{n}$ 是 $V;L(\cdot )$ 表示 LSM。

在融合相应的特征后，我们将 $I$ 和 $V$ 的相应细节特征相加到 DSM 和 NAT 中，分别得到红外和可见图像 $F_{d}$ 和 $F_{n}$ 的预融合特征。 $F_{d}= D(F_{i}^{d}+F_{v}^{d})$ , $F_{n}= N(F_{i}^{n}+F_{v}^{n})$ .其中 $F_{d}$ 和 $F_{n}$ 分别是融合的显着特征和局部特征； D(·) 表示 DSM，N (·) 表示 NAT。

3.3.3 Decoder

基本ResNeSt解码器(BRD)。我们引入了一个基于元学习的空间注意模块来增强模型的泛化能力和迁移学习能力并促进跨模态信息在不同数据集上的正传输。将融合层抽象的局部特征和显著特征作为BRD(·)的输入相加。使用交叉模式作为输入，我们利用 ResNeSt 作为核心组件来保持具有 BRE 的解码器结构的一致性。融合结果是使用解码器获得的，可以表示如下： $F=BRD(F_{d}+F_{n})$ ，其中 F 表示融合结果。

4. Loss function

TSJNet 旨在提高融合结果的视觉质量并很好地服务于下游任务。为此，我们使用检测模型的位置感知能力和尺度不变性、语义信息提取能力和分割模型的像素级细化。因此，检测损失 $\zeta _{Det}$ 、分割损失 $\zeta _{Seg}$ 和多方面融合损失 (MFFLoss) $\zeta _{MFF}$ 旨在指导我们的网络的优化，这是 TSJNet 最重要的创新。中的损失函数公式作为检测损失引入，引入交叉熵损失函数作为分割损失。融合损失的精确公式可以表示为： $\zeta _{all}=\zeta _{MFF}+\zeta _{Det}+\zeta _{Seg}$ 。

4.1. MultiFacet Fusion Loss

在上游和下游任务中，图像质量直接影响模型的性能。对于目标检测，实体边缘和特征信息的保存对于准确定位和识别不同的对象至关重要。MFFLoss的设计旨在融合图像更适合后续的目标检测和语义分割。语义分割任务要求图像的每个像素被正确分类，这需要额外的视觉和上下文信息。MFFLoss 强调通过结构相似性度量 $\zeta _{ssim}$ 的损失来保留全局结构，这对于语义分割中的像素级分类至关重要， $\zeta _{ssim}=\frac{1}{2}(1-ssim(F,I))+\frac{1}{2}(1-ssim(F,V))$ ，其中 ssim(·) 计算结构相似性。

获得高精度和多样化的图像内容可以弥合上游和下游任务之间的差距。引入多样性损失 $\zeta _{div}$ 通过鼓励注意机制避免过度来保持融合模型在独立和跨模态特征提取中的稳定性和灵活性，这对于处理复杂场景中多个目标和类别的检测至关重要， $\zeta _{div}=-\frac{1}{m}\sum_{i=1}^{m}(1-\underset{j}{max\, }att_{i,j})+\frac{1}{mn}\sum_{i=1}^{m}\sum_{j=1}^{n}att_{i,j}$ 。其中 att 是解码器训练阶段生成的注意力权重矩阵，m 和 n 分别是行和列的数量。

最终，我们模型的目标可以表示如下：。

4.2. Detection Loss

红外、可见光和融合结果分别输入到检测网络，根据ground truth和各自的预测计算检测损失。我们将 I、V 和 F 的检测损失分别表示为 $\zeta _{det}^{I}$ 、 $\zeta _{det}^{V}$ 和 $\zeta _{det}^{F}$ 。检测损失LDet可以表示如下， $\zeta _{det}=\zeta _{det}^{I}+zeta _{det}^{V}+zeta _{det}^{F}$ 。为了提高模型的泛化能力和计算效率，从原始目标检测损失中去除分类损失，只保留回归损失[29]。此外，只有当需要修改融合网络时，检测损失函数。以融合检测网络为例， $\zeta _{det}^{V}(u,t^{u},v)=\left [ u\geq 1 \right ]\zeta _{det}^{F}(t_{}^{u},v)$ 其中u是ground truth类， $t^{u}$ 是边界框的预测结果，v是ground truth边界框的回归目标。当满足 u ≥ 1 时，Iverson 括号指示函数 [u ≥ 1] 为 1，否则为 0。我们将背景类标记为 u = 0。 $\zeta _{ reg}^{F}$ 是 L1 损失。

4.3. Semantic Loss

为了充分增强融合结果的语义信息，我们的模型中引入了DeepLabV3+，并将语义损失添加到MFFLoss中。语义损失可以表示为： $\zeta _{seg}=-\frac{1}{PQ}\sum_{p=1}^{P}\sum_{q=1}^{Q}log(\frac{exp(\widehat{y}_{C_{p,q},P,Q})}{\sum_{j=1}^{C}exp(\widehat{y}_{j,p,q})})$ 。其中 $c_{p,q}$ 表示位置 (p, q) 处的真实类索引。 $\widehat{y}_{j,p,q}$ 是模型对 logits 中位置 (p, q) 处属于类 j 的预测。

5. Experiment

5.1. Setup

5.1.1 Experimental Detail

所有实验均在具有四个 RTX 3090 GPU 的服务器上进行。由于分块和调整图像会导致语义信息和标签失败的损失，我们使用原始图像大小进行训练。有 40 个训练时期，批量大小设置为 2。我们使用了初始学习率为 0.001 的 Adam 优化函数。当损失函数的值连续不经过三次时，学习率降低了原来的 0.1 倍。我们使用带有 ResNet-50 和 FPN 模型的预训练的 Faster R-CNN 和带有 ResNet101模型的预训练的 DeepLabV3+ 用于对象检测和语义分割。式10中的三个可调参数α1、α2和α3分别取0.1、6和1。此外，在训练期间应用了精度策略来减少内存使用。

5.1.2 Datasets, Metrics, and compared methods

数据集：同时使用四个公共基准来验证我们的融合模型：即 MSRS、M3FD 、Road Scene和 LVIP 。我们的网络在 MSRS 数据集（1035 对）上进行训练，并在 MSRS（362 对）、M3FD（300 对）、RoadScene（2221 对）和 LLVIP（3463 对）上进行测试，这些数据集被合成以验证我们的融合网络更好的泛化能力。

LVIP、M3FD 和 RoadScene 数据集缺乏语义分割标签或对象检测标签，即不利于对下游任务进行实验。因此，我们使用 YOLO-v7 和 Segmentanything 模型为四个数据集提供了这两种标签，这将在 GitHub 中开源。

指标:结构相似性(SSIM)、均方误差(MSE)、峰值信噪比(PSNR)、视觉信息保真度(VIF)、相关系数(CC)[6]和Chen-Varshney度量(CV)。

比较方法:选择7种SOTA方法与TSJNet进行比较:Reconet (Rec)、CDDFuse (CDD)、LRRNet (LRR)、TarDal (TarD)、IGNet (IGN)、SuperFusion (Sup)和DIVFusion (DIV)。

5.2. Assessments of multi-modality image fusion

主观比较。下图中中，我们给出了MSRS、M3FD、RoadScene和LLVIP数据集的主观结果。显然，TSJNet融合的图像超过了其他SOTA方法融合的图像。首先，TSJNet的对象明显突出，因此很难将前景目标与较暗或过度曝光区域的背景区分开来。其次，TSJNet保留了丰富的边缘和纹理信息，这些信息可能被光线差所掩盖，如汽车门帧、前中心网、标志和自行车车轮。

客观比较。表列出了四个数据集的六个指标的平均分数。一般来说，客观结果优于其他方法。具体来说，SSIM、CC 和 MSE 总体上得分最高，

表明TSJNet与源图像具有更强的相似性。PSNR值越高，表明所提出的方法产生的中断水平越低。由于 TSJNet 专注于跨模态特征提取，VIF 值保持在较高级别。此外，CV 的更好性能表明 TSJNet 很好地保留了边缘等局部细节。

5.3. Downstream applications

5.3.1 Object detection

设置：我们对 M3FD 数据集执行对象检测，使用检测器 YOLO v7，并通过在 0.5 度量 (mAP@0.5) 的交集 (IoU) 上计算的平均平均精度 (mAP) 来评估检测性能。训练 epoch、批量大小和初始学习率分别设置为 300、16 和 0.01。

主观分析。如下表所示，融合结果的AP@0.5和mAP@0.5值高于未融合单峰图像的值。CDDFuse、LRRNet 和 TSJNet 表现出良好的检测性能。值得注意的是，TSJNet 在检测性能方面优于比较方法 2.84%。客观分析。如下图所示，包含互补模态图像特征的融合图像的检测结果一般优于单模态图像的检测结果。然而，不同方法的融合性能对检测精度的影响程度不同。Reconet、CDDFuse、LRRNet 和 TarDal 错误地将“人的反射”和“桶”检测为“人”。 IGNet 和 SuperFusion 遭受检测错误和低置信值。TSJNet的融合结果包含丰富的目标特征;因此，它有效地避免了上述问题，具有良好的置信度。

5.3.2 Semantic segmentation

设置：我们使用 BiSeNet来分割 MSRS 数据集的九个对象类的语义信息，即背景、颠簸、颜色锥体、护栏、护栏、曲线、自行车、人、汽车停车和汽车。该模型的有效性由 IoU 评估。训练 epoch 数设置为 200，批量大小为 8，其余参数保持不变，如初始实验。主观分析。下图显示了 MSRS 的“000939”和“00770”的分割结果。在左侧示例中，无法准确分割“黄色锥体”，Reconet、LRRNet 和 DIVFusion 无法分割远处的汽车。在右边的示例中，Reconet 和 TarDal 无法分割语义信息，因为图像中包含的语义信息较少，CDDFuse、IGNet、SuperFusion 和 DIVFusion 在分割边缘位置的人方面表现出小错误。

客观分析。表 2 清楚地展示了 TSJNet 的分割优势。在比较方法中，mIoU 的值最高。与竞争对手CDDFuse和SuperFusion相比，TSJNet在许多重要类别中获得了更高的分数，如曲线和汽车停止。此外，TSJNet 在分割能力上比其他方法高出 7.47%，这突出了我们的模型在处理复杂和细节丰富的场景方面的强大能力。

5.4.消融研究

检测和分割损失消融。为了验证检测和分割双重损失的有效性，我们分别将它们与 TSJNet 联合删除，使其他部分保持不变。如下表所示，无论损失去除类型如何，度量值都有一个整体下降趋势。如下图所示，使用双重损失提取丰富的语义和目标信息。因此，同时融合跨模态信息的图像实现了鲁棒检测和精确的分割结果。使用检测和分割损失建立了融合和高级任务之间相互有利的关系。

6. Conclusion

在本文中，我们提出了一种目标和语义感知联合驱动融合网络。在自动编码器结构和精心设计的 DSM 的帮助下，我们完全提取跨模态独立模态特征，并将检测损失和分割损失纳入融合网络中。值得注意的是，实验表明 TSJNet 不仅专注于增强图像细节，还侧重于捕获高级语义和目标信息，从而促进下游任务。未来，我们将探索一种更轻量级、更有效的融合网络，以更好地实现其在自动驾驶和安全监控中的应用。

Ron Wealthy

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
读论文：TSJNet

多模态图像融合涉及将不同模态的互补信息集成到一张图像中。目前的方法主要集中在使用单个高级任务来增强图像融合，例如将语义或对象相关信息合并到融合过程中。这种方法在同时实现多个目标方面带来了挑战。我们引入了一个名为 TSJNet 的目标和语义感知联合驱动融合网络。TSJNet包括以串联结构排列的融合、检测和分割子网络。它利用从双高级任务派生的对象和语义相关的信息来指导融合网络。此外，我们提出了一种具有双并行分支结构的局部显着特征提取模块，以完全捕获跨模态图像的细粒度特征，并促进模态、目标和分割信息之间的交互。
复制链接

扫一扫