【浅读论文-VIF-CNN】Infrared and Visible Image Fusion using a Deep Learning Framework
一 概述
1.这篇是2018年ICPR会议上发表的一篇文章1。博主个人觉得这算比较早期在VIF(红外光和可见光图像融合)中加入了深度学习这一模型的论文。
2.这篇文章并不是完全使用深度学习的模型,模型主体在图像分解和融合仍然采用传统的方法,只有其中一个分支在特征提取和重建方面用到了VGG网络。
3.论文地址
4.代码地址
二 介绍
本文提出了基于深度学习框架的一种新算法。本文提出使用下述论文中Image fusion with guided filtering2 中的分解方法将源图像分解为基本部分和细节内容。这篇图像的基本部分应该是两幅图像所共有的信息,细节部分是两幅图像独有的信息,比如红外图像的目标以及可见图像的纹理信息。
融合基本部分:使用加权平均策略获得。
提取细节部分:首先,使用深度学习网络来计算多层信息以尽可能地保留源图像内容。 对于每一层提取的特征,使用softmax算子获取权重图,得到候选的融合细节内容。在多个图层上应用相同的操作,获得融合细节内容的多个候选对象。最终的融合细节图像由最大选择策略生成。
最后,通过将基础部分与细节内容融合来重建最终的融合图像。
三 融合方法
图像分解
本文使用上述论文中的优化方法来分解源图像。
本文提出图像由基本部分和细节部分组成,那么显而易见,当我们知道其中一个信息时,另一个信息自然而然可以知道,由下式表示:
I
k
d
=
I
−
I
k
b
\begin{equation*} I_{k}^{d}=I-I_{k}^{b} \end{equation*}
Ikd=I−Ikb
其中,在这里Ibk表示基础部分,Idk表示细节部分
基础部分通过以下公式进行优化
I
k
b
=
arg
min
I
k
b
∥
I
k
−
I
k
b
∥
F
2
+
λ
(
∥
g
x
∗
I
k
b
∥
F
2
+
∥
g
y
∗
I
k
b
∥
F
2
)
\begin{equation*} I_{k}^{b}= \arg\min\limits_{I_{k}^{b}}\Vert I_{k}-I_{k}^{b}\Vert_{F}^{2}+\lambda(\Vert g_{x}\ast I_{k}^{b}\Vert_{F}^{2}+\Vert g_{y}\ast I_{k}^{b}\Vert_{F}^{2}) \end{equation*}
Ikb=argIkbmin∥Ik−Ikb∥F2+λ(∥gx∗Ikb∥F2+∥gy∗Ikb∥F2)
其中,gx和gy是水平和垂直梯度算子
得到基础部分后,就可以得到细节部分,到此,完成图像分解。
图像融合
本文提出的图像融合的算法框架如图所示:
基本部分融合
从源图像中提取的基本信息包含红外图像和可见图像的共同特征和冗余信息,对于这部分融合,直接采用加权平均策略来融合。
F
b
(
x
,
y
)
=
α
1
I
1
b
(
x
,
y
)
+
α
2
I
2
b
(
x
,
y
)
\begin{equation*} F_{b}(x, y)=\alpha_{1}I_{1}^{b}(x, y)+\alpha_{2}I_{2}^{b}(x, y) \tag{3} \end{equation*}
Fb(x,y)=α1I1b(x,y)+α2I2b(x,y)(3)
其中,α1和α2是超参数,为了保持丰富的特征以及减少冗余信息,将α1和α2设为0.5。(其实这是两个图像的基本信息,设置成0.5就表示是对这两个图像进行平均融合)
细节部分融合
对于源图像的细节信息,我们使用VGG网络来进行深度特征提取。这里需要注意的是,虽然用到VGG网络,但是实际上是用的预训练模型,也就是整个模型并没有经过训练就得到结果。
本文用上述框架提取深度特征。然后,通过一个多层融合策略获取权重图,再对权重图和细节部组合进行重建得到融合细节部。
多层融合策略
VGG提取的第i层特征由下式表示:
ϕ
k
i
,
m
=
Φ
i
(
I
k
d
)
\begin{equation*} \phi_{k}^{i, m}=\Phi_{i}(I_{k}^{d}) \end{equation*}
ϕki,m=Φi(Ikd)
有了特征图之后,就可以融合特征了。
如上图所示,i∈{1,2,3,4}分别代表四个relu层的输出,上标m∈{1,2,…M},M=64×2(i-1),代表对应relu层的通道数。VGG提取的第i层特征通过l1-norm和average来获取不同尺度下的initial activity level map,计算公式如下:
C
k
i
(
x
,
y
)
=
∥
ϕ
k
i
,
1
:
M
(
x
,
y
)
∥
1
\begin{equation*} C_{k}^{i}(x, y)=\Vert \phi_{k}^{i, 1:M}(x, y)\Vert_{1} \end{equation*}
Cki(x,y)=∥ϕki,1:M(x,y)∥1
然后使用基于block的平均算子得到final activity level map,这个方法对于匹配不准的图像具有鲁棒性。 计算公式如下:
C
^
k
i
(
x
,
y
)
=
∑
β
=
−
r
r
∑
θ
=
−
r
r
C
k
i
(
x
+
β
,
y
+
θ
)
(
2
r
+
1
)
2
\begin{equation*} \hat{C}_{k}^{i}(x, y)=\frac{\sum\nolimits_{\beta=-r}^{r}\sum\nolimits_{\theta=-r}^{r}C_{k}^{i}(x+\beta, y+\theta)}{(2r+1)^{2}} \end{equation*}
C^ki(x,y)=(2r+1)2∑β=−rr∑θ=−rrCki(x+β,y+θ)
其中,r表示block的大小,如果r较大,则融合方法对错误配准的影响会更稳,但可能会丢失一些细节。
得到活动水平图后,初始权重图可以由softmax算子计算,如下式所示:
W
k
i
(
x
,
y
)
=
C
^
k
i
(
x
,
y
)
∑
n
=
1
K
C
^
n
i
(
x
,
y
)
\begin{equation*} W_{k}^{i}(x, y)=\frac{\hat{C}_{k}^{i}(x, y)}{\sum\nolimits_{n=1}^{K}\hat{C}_{n}^{i}(x, y)} \end{equation*}
Wki(x,y)=∑n=1KC^ni(x,y)C^ki(x,y)
初始权重图的值在【0,1】之间。
接着,使用上采样算子将权重图大小调整与输入大小相同,如下式所示:
W
^
k
i
(
x
+
p
,
y
+
q
)
=
W
k
i
(
x
,
y
)
,
p
,
q
∈
{
0
,
1
,
⋯
,
(
2
i
−
1
−
1
)
}
\begin{align*} &\hat{W}_{k}^{i}(x+p, y+q)=W_{k}^{i}(x, y),\\ &\ p, q\in\{0,1, \cdots, (2^{i-1}-1)\} \end{align*}
W^ki(x+p,y+q)=Wki(x,y), p,q∈{0,1,⋯,(2i−1−1)}
由此,我们获得4层特征图处理后的4对权重图,每对有2个模态的权重图 ,所以共8张权重图。每对特征图通过下式进行融合,这样可以将8张特征图融合为4张不同尺度下的初步细节融合内容。
F
d
i
(
x
,
y
)
=
∑
n
=
1
K
W
^
n
i
(
x
,
y
)
×
I
n
d
(
x
,
y
)
,
K
=
2.
\begin{equation*} F_{d}^{i}(x, y)=\sum\nolimits_{n=1}^{K}\hat{W}_{n}^{i}(x, y)\times I_{n}^{d}(x, y), K=2. \end{equation*}
Fdi(x,y)=∑n=1KW^ni(x,y)×Ind(x,y),K=2.
最后,根据下式得到融合细节内容,其中,我们从四个初始融合细节内容选择最大值融合。
F
d
(
x
,
y
)
=
max
[
F
d
i
(
x
,
y
)
∣
i
∈
{
1
,
2
,
3
,
4
}
]
\begin{equation*} F_{d}(x, y)=\max[F_{d}^{i}(x, y)\vert i\in\{1,2,3,4\}] \end{equation*}
Fd(x,y)=max[Fdi(x,y)∣i∈{1,2,3,4}]
图像重建
我们已经获得了融合基本部和融合细节部,通过直接相加的方式获得最终融合图像,如下式:
F
(
x
,
y
)
=
F
b
(
x
,
y
)
+
F
d
(
x
,
y
)
\begin{equation*} F(x, y)=F_{b}(x, y)+F_{d}(x, y) \end{equation*}
F(x,y)=Fb(x,y)+Fd(x,y)
四 实验结果
数据集:TNO
实验结果
a)主观评估
由上图所示:所提出的方法看起来更加自然,保留更多的细节信息。
b)客观评估
使用了四个质量指标。它们是:FMIdct和FMIw,分别计算离散余弦和小波特征的互信息(FMI);Nabf表示融合过程添加到融合图像中的噪声或伪影的速率;和改良结构相似性 (SSIMa)。
如表所示:所提出的方法具有这些指标的所有最佳平均值。这些值表明,所提方法得到的融合图像更自然,包含更少的人工噪声。从客观评价来看,我们的融合方法比现有方法具有更好的融合性能。
如图所示:我们的方法产生的Nabf值比CBF、JSR和JSRSD高出近两个数量级。即使与ConvSR相比,所提方法的Nabf值也非常小。这表明所提方法得到的融合图像包含较少的人工信息和噪声。
五 总结
即使到2023年,选取好的融合策略以及面临如何解决图像配准这两个难题仍然没有得到很好的解决,但是在这篇文章中上述两个问题都被提及。此外,方法中提到的将图像分为基础特征和细节特征,以及多尺度融合模块在如今仍然被广泛使用。
但是这篇文章只在很小的分支上使用了深度学习方法,并且使用的是预训练模型,没有专门对模型进行训练。不过作为18年的文章,想法上已经很先进了。
H. Li, X. -J. Wu and J. Kittler, “Infrared and Visible Image Fusion using a Deep Learning Framework,” 2018 24th International Conference on Pattern Recognition (ICPR), Beijing, China, 2018, pp. 2705-2710, doi: 10.1109/ICPR.2018.8546006. ↩︎
S Li, X Kang and J. Hu, “Image fusion with guided filtering[J]”, IEEE Transactions on Image Processing, vol. 22, no. 7, pp. 2864-2875, 2013. ↩︎