An Infrared and Visible Image Fusion Architecture Based on Salient Object Segmentation Mask-基于显著目标分割掩码的红外与可见光图像融合
研究背景
问题
在现有的红外和可见光图像融合方法中,普遍存在两个问题。第一,当背景纹理清晰时,红外图像中的热信息很可能被遗漏,这会导致融合图像中红外信息的突出困难。第二,红外图像热目标信息的突出会带来大量的红外图像背景噪声,导致融合图像中背景不清晰,影响可见光图像纹理细节的显示。如下图所示
综上所述,当前大多融合方法在集成红外图像的显著性目标信息的同时会引入无意义的红外噪声信息,这导致融合图像中来自可见光图像纹理信息受到干扰,无法有效地集成不同模态图像的互补信息。
方法
为了解决这些问题,我们提出了一种新的基于显著对象分割掩模的红外和可见光图像融合框架,即SOSMaskFuse-。在融合过程中,我们将红外图像前景热特征提取的任务转化为显著目标分割的任务。设计了一种新的显著目标分割网络,用于从红外图像中获取感兴趣区域的二值化掩模。在此基础上,提出了一种新的融合策略IMV-F(infrared-mask-visible-fusion),将红外或可见光图像分解为前景和背景,然后将前景和背景部分分别融合为融合前景和融合背景。在三个公开数据集上与18种竞争算法进行比较的结果表明,我们提出的网络在减少红外噪声以产生具有清晰背景纹理信息和突出红外热目标信息的高质量融合图像方面具有较好的性能。
主要贡献
-
提出了一种新的显著对象分割(SOS)网络。通过SOS网络,从包含前景信息的红外图像中分割出二值掩码。实验结果表明,该方法能够有效地解决融合图像中红外-前景-热信息难以突出的问题。据我们所知,这项工作是文献中第一个将显着性掩模纳入非端到端深度学习网络中进行图像融合的工作。
-
提出了一种基于显著性掩码和源图像的IMV-F融合策略,基于掩码将图像在不同尺度分为前景和背景进行融合。实验结果表明,采用IMV-F策略融合的图像能够突出前景信息(如行人、汽车等)。以避免融合太多无用的红外噪声并保留丰富的可见背景细节。
整体架构
网络结构
网络结构分为两部分:掩码分割网络(SOS Network)和基于AE的融合网络。
掩码分割网络(SOS Mask)-基于HRNet网络设计的分割网络。经过卷积,下采样得到多尺度(不同分辨率)特征,上采样等操作获得掩码图像。(分割网络相较于原网络没有太大的变化)
融合网络-基于NestFuse设计的融合网络(多尺度)
整体流程
首先使用掩码分割网络(SOS Mask)来生成红外图像的掩码图像,然后将红外图像和可见光图像根据掩码图像分为红外前景、红外背景、可见光前景、可见光背景图像。将前景、背景图像送到融合网络中的编码器中提取多尺度特征,根据融合策略将不同尺度的前景图像、背景图像特征进行融合。最后整合不同尺度的融合特征得到融合图像。
融合策略
融合策略分为前景融合和背景融合
前景融合:直接将红外前景和可见光前景进行相加得到融合前景
背景融合:可见光背景为主体,然后使用SCA融合策略来融合红外背景和可见光背景得到补充背景,补充背景和可见光背景相加得到融合背景。下面是计算可见光背景和补充背景的权重公式:
融合图像 = 融合前景 + 融合背景
SCA融合策略:由通道注意力和空间注意力两部分组成,并且采用均值的方式获得补充背景。
- 空间注意模块:使用l1-norm 和soft-max来获得两者单独的空间注意权重,然后结合两者的空间注意权重形成空间融合权重μ,最后各自结合得到的空间融合权重得到空间融合特征。这里K表示红外背景/可见光背景。
- 通道注意模块:使用global-pooling和soft-max来获得红外与可见光图像的通道权重信息,然后结合两者的通道权重信息得到通道融合权重信息。
训练策略
模型的训练分为两个阶段,第一阶段训练分割网络来获得掩码图像。第二阶段训练**编码-解码器网络(融合网络)**的特征提取和图像重建能力。
损失函数
分割网络:分割网络的输出是二值掩码图像,因此分割网络使用二元交叉熵损失函数来训练分割网络(由地面真相)。y是分割网络输出的掩码图像,Y是地面真相,T是像素点总数。
融合网络(AE):训练AE的特征提取和图像重建的能力。
其中,AE的损失函数由像素损失和结构相似性损失组成。
总结
这篇论文的主要工作:
-
提出一种显著对象分割网络来分割红外图像获得二值掩码。
-
设计了一种新的融合策略来集成源图像的互补信息。
引入掩码来帮助图像融合的这种方法确实可以得到比较好的热目标信息,但是如何有效集成源图像中互补的纹理信息还有待处理。这篇论文在掩码的基础上,设计一种基于空间/通道注意力新颖的融合策略可以较好的实现互补信息的集成。