一、创新点:
1. 提出了一种用于红外和可见图像融合问题的新型深度学习架构。与传统的卷积网络相比,我们的编码网络由卷积层、融合层和密集块组合而成
2. 一些基于CNN的图像融合方法,只使用最后一层的结果作为图像特征,但是这样会丢失大量的中间的有用信息。而对于DenseFuse这种方法来说,它的主要区别就在于编码器中的DenseBlock,它的特点是:DenseBlock中每一层的输出都会作为后面的输入,这样中间层的输出特征就会得到保留,使图像融合产生更好的效果。
3. 融合层主要采用两种策略:相加策略和L1范数策略
二、知识点与收获:
1.网络架构
该模型主要有三部分:编码器、融合层、解码器。
编码器主要有两部分:C1和DenseBlock。其中C1包含一个3×3的滤波器,主要用来粗略提取特征;DenseBlock包含三个的卷积层,每个卷积层的输出级联到后面卷积层的输入,以保证中间的输出特征不丢失。码器的体系结构具有两个优点。首先,滤波器的大小和卷积运算的步幅分别为3×3和1。使用此策略,输入图像可以是任何大小。其次,DenseBlock可以在编码网络中尽可能保留深度特征,并且该操作可以确保融合策略中使用所有显著特征。
2.训练
在训练阶段,将融合层抛弃,只考虑编码器和解码器网络。在其中训练的编码器和解码器网来重建输入图像。在确定编码器和解码器的权重后,使用自适应融合策略来融合编码器获得的深层特征。此训练策略的优点:为特殊的融合任务设计特殊的融合层;为融合层的改进留出更多空间。
如图表示的使各层卷积网络中的卷积块大小、步长、特征图通道数以及激活函数。
3.损失函数
图像损失由像素损失函数(Lp)和结构相似性损失函数(Lssim)加权得到。
其中O和I分别表示输出图像和输入图像。Lp是输出O和输入I之间的欧几里得距离,SSIM(O,I)表示结构相似性,它表示两个图像的结构相似性。由于像素损失和SSIM损失之间存在三个数量级的差异,因此在训练阶段,将λ分别设置为1、10、100和1000。
4.融合策略
(1)相加策略
其中m表示第m个通道,k表示第k种数据。fm表示融合结果。公式如下:
简单来讲就是对应像素点位置直接相加。
(2)L1范式策略
其中m表示第m个通道,k表示第k个数据。
初始作用图Ci计算方式:
再进行范围平均:
其中r = 1决定一个像素是由以其为中心的3×3的范围内进行平均得到。
最后进行融合图生成:
三、思考
(1)DenseFuse利用Dense Block结构捕获图像的深度特征,避免了只使用最后一层结果导致的有用信息丢失,提高了融合质量。
(2)在训练阶段,将融合层抛弃,只考虑编码器和解码器模块。在其中训练的编码器和解码器网来重建输入图像。在确定编码器和解码器的权重后,使用自适应融合策略来融合编码器获得的深层特征。此训练策略的优点:为特殊的融合任务设计特殊的融合层;为融合层的改进留出更多空间。
(3)虽然加法和L1范数是常用的融合策略,但可能存在更适合特定场景或任务的融合方法。未来研究可以探索更先进的融合策略,进一步提升融合性能。
(4)DenseBlock中每一层的输出都会作为后面的输入,但网络结构的进一步优化(如层数、卷积核大小等),是否会导致计算量过大,可能对融合结果产生影响。可以尝试调整网络结构以找到更优配置。