【浅读论文-VIF-综述】Infrared and visible image fusion methods and applications: A survey(下)
一 概述
这是2019年提出的论文综述1 ,主要对早期的传统融合方法和应用做综述,简要回顾一下。
📖 论文地址
📖 置一个传送门,这是文章的上半部分,主要讲的是融合方法。【浅读论文-VIF-综述】Infrared and visible image fusion methods and applications: A survey(上)
二介绍
三 Introduction
四 Methods
五 应用
图像融合的应用主要包含:目标识别,物体检测, 跟踪,监视,色觉和遥感几个领域。
用于识别的融合
给定包含一个或一些对象的图像,识别旨在指定目标对象的类别。人脸识别是采用红外和可见光融合的识别的主要应用之一。使用红外和可见光图像融合的识别算法有两种类型。第一类是两阶段识别:先融合,然后用融合结果识别。在第二类中,融合算法被嵌入到识别过程中,其中很难区分两个过程之间的边界。 当然也存在其他与红外和可见光图像融合相关的生物识别应用。
用于检测和跟踪的融合
基于红外和可见光图像融合的检测在许多现实生活中得到广泛应用,如一般物体检测、行人检测、水果检测等。与识别不同,它应该同时确定物体的准确位置。根据实现过程,基于融合算法的检测方法主要可分为两类:(1)先融合后检测的检测方法和(2)先检测后融合的检测方法。许多算法采用前一种风格。至于第二类,Jose等人提出的基于INT3框架的人物检测算法就是一个典型的例子。在这个框架中,输入源图像被分割,然后在像素级别融合,从而为目标对象生成可能的候选对象。在此步骤之后,执行检测算法,例如基于可变形零件的模型来搜索目标。虽然检测表面上落后于融合,但在融合之前实施的候选分割过程是检测的重要组成部分。除了检测和识别之外,该方法还可以嵌入流行的视觉任务,例如跟踪或事件解释。因此,该框架基于红外和可见光图像的融合结果,为多任务实现提供了统一的解决方案。
目标跟踪算法与检测有一些相似之处,它应该确定帧之间的关系,并在时间序列中检测目标对象。在目标跟踪中,算法应快速实现,因为在大多数情况下,跟踪是使用时间序列的视频或图像执行的。因此,在融合过程中通常采用基于多尺度分解的方法。
在大多数用于识别、检测和跟踪的算法中,融合是一个相对独立的部分,旨在提高原始图像的可见性或纹理。与某些端到端方法(如CNN)不同,应选择合适的识别或检测算法,以在特定目标任务中生成出色的融合图像。
用于监视的融合
如图所示监控需要清晰、可靠且富有表现力的图像或视频。
红外和可见光图像的互补特性使它们成为这项任务的良好融合源。红外和可见光图像由于具有不同的图像特征,因此在各个方面提供对象信息。红外图像捕获物体的热辐射,不受照明、天气和其他干扰变化的影响。然而,红外图像的空间分辨率较低,因此很难区分细节。相比之下,可见光图像具有高空间分辨率和丰富的色彩,这使得其中的物体生动且易于识别。这两个图像的融合显著提高了可见性,并有助于一些实际应用。 监控方法通常处理视频,并且需要快速实施。因此,为监控应用设计的融合算法通常以多尺度的方式开发。
色觉融合
人类的视觉系统只能感知可见光。因此,必须将来自目标物体或场景的热辐射信息转换为伪彩色图像。很长一段时间没有使用合适的渲染方案,融合结果用灰度图像表示。这种方法会降低监控性能,因为人类视觉系统可以区分一千多种颜色,但只能辨别大约100级灰度强度。Reinhard等人提出的颜色转移是该领域的一个突破。该方法将主成分空间中自然图像的统计量转移到多波段图像中,使灰度图像具有自然的外观。多波段图像需要显示与源图像相似的场景,以免呈现奇怪的外观。该方法的过程如图所示。至于红外线和可见光图像融合,使用的原始图像来自同一场景;因此,这样的融合可以产生令人满意的结果。
其他应用的融合
红外和可见光图像融合技术在其他领域也有广泛的应用。典型领域包括遥感、文物分析和增强现实。
目前的红外和可见光图像融合算法大多是在像素级开发的。尽管融合图像可以提供有关场景的补充信息,但由于融合规则不合适,许多算法中仍会出现晕晕等失真。这些不希望的更改会限制或降低基于相应融合方法构建的应用程序的性能。具有良好融合原理和结合像素级语义特征的强大表示的方法将显着改善当前的应用,并有助于不同领域先进系统的发明。
实现
许多融合算法涉及大量计算,并且需要相当长的时间才能在机器上实现以实现一般计算目的。然而,许多基于红外和可见光图像融合的现实应用,如视频监控,要求该算法高效才能实现令人满意的性能。因此,设计了涉及专用计算机的实现方法以加速这一过程。实现方案主要有两种类型:基于现场可编程门阵列的架构和基于计算统一设备架构的实现。
与通用计算机相比,FPGA具有许多优势;它具有低功耗和巨大的处理吞吐量,因此是节能的,可以设计用于并行计算。芯片的可编程特性还有助于开发可用于无人机等平台的紧凑型便携式融合系统。只有少数尝试使用FPGA设计融合系统。加速实现的另一种典型方法是通过CUDA。关于相关架构的文献有限。(ps:后面就不有限了(bushi))
六 图像融合性能指标
近几十年来,红外和可见光图像融合在信息融合中引起了相当大的关注,并提出了几种图像融合方法。由于图像融合技术的进步,红外和可见光图像融合技术已广泛应用于不同的应用,如物体识别、跟踪和监控。然而,不同的融合方法具有不同的特点,融合方法在实际应用中的表现很大程度上依赖于融合图像的质量。因此,应从定性和定量两个方面评估不同方法的融合性能。
目前已经提出了许多质量评价方法来评价不同红外和可见光图像融合方法的性能,可分为主观评价方法和客观评价方法。质量评价方法可用于比较不同熔融方法的性能,并作为实际应用中选择熔融方法的指南。评估方法也可用于调整融合方法的参数。
主观评价方法基于人的视觉系统对融合图像的质量进行评价,在融合质量评价中发挥着重要作用。主观人类推理可以根据图像细节、对象完整性和图像失真等几个标准一致地比较不同的融合方法;因此,主观评价方法在红外和可见光图像融合的质量评价中是流行、可靠和直接的。然而,最简单的主观评价方法是由训练有素的观察者对融合图像进行评分,其缺点是人为干预、耗时大、成本高、不可重复性。为了克服这些问题,提出了一种能够定量、自动测量融合图像质量的客观评估方法。
与主观评价方法不同,客观评价方法可以定量评价融合图像质量,与人类视觉感知高度一致,不易被观察者或解释者偏袒。客观评价方法有多种类型,分别基于信息论、结构相似性、图像梯度、统计学和人类视觉系统。在本节中,我们简要介绍一些具有代表性的图像质量评估措施,如表所示。(在这里就不贴表格了,感兴趣的可以点文首的论文链接)
具体指标公式博主周末再更新
EN(熵)
熵(EN)基于信息论[313]测量融合图像中包含的信息量。EN在数学上的定义如下
E
N
=
−
∑
l
=
0
L
−
1
p
l
log
2
p
l
EN=- {\textstyle \sum_{l=0}^{L-1}p_l\log_{2}{p_l} }
EN=−∑l=0L−1pllog2pl
其中 L 表示灰度级别数和pl是融合图像中相应灰度级别的归一化直方图。EN越大,融合图像中包含的信息越多,融合方法的性能就越好。但是,EN可能会受到噪声的影响;融合图像包含的噪声越多,EN就越大。因此,EN通常用作辅助指标。
MI(互信息)
互信息(MI)指标是一种质量指标,用于衡量从源图像传输到融合图像的信息量。MI是信息论中的一个基本概念,用于衡量两个随机变量的依赖性。MI融合指标定义如下:
M
I
=
M
I
A
,
F
+
M
I
B
,
F
MI=MI_{A,F}+MI_{B,F}
MI=MIA,F+MIB,F
其中,
M
I
A
,
F
和
M
I
B
,
F
MI_{A,F}和MI_{B,F}
MIA,F和MIB,F分别表示从红外和可见光图像传输到融合图像的信息量。两个随机变量之间的 MI 可以通过 Kullback-Leibler 度量计算,其定义如下:
M
I
X
,
F
=
∑
x
,
f
P
X
,
F
(
x
,
f
)
log
P
X
,
F
(
x
,
f
)
P
X
(
x
)
P
F
(
f
)
MI_{X,F}= {\textstyle \sum_{x,f}^{}P_{X,F}(x,f)\log_{}\frac{P_{X,F}(x,f)}{P_{X}(x)P_{F}(f)} }
MIX,F=∑x,fPX,F(x,f)logPX(x)PF(f)PX,F(x,f)
其中
P
X
(
x
)
P_{X}(x)
PX(x)和
P
F
(
f
)
P_{F}(f)
PF(f)分别表示源图像 X 和融合图像 F 的边缘直方图。
P
X
,
F
(
x
,
f
)
P_{X,F}(x,f)
PX,F(x,f)表示源图像 X 和融合图像 F 的联合直方图。较大的MI指标意味着大量信息从源图像传输到融合图像,这表明融合性能良好。
FMI(特征互信息)
在许多图像处理任务中,图像通常由其特征表示,与融合图像质量相关的大多数信息都包含某些特征,例如边缘、细节和对比度。因此,测量从源图像传输到融合图像的特征信息量是合理的。Haghighat等人提出了基于MI和特征信息的特征互信息(FMI)质量指数,用于测量从源图像传输到融合图像的特征信息量[300]。FMI 指标的定义如下:
F
M
I
=
M
I
A
ˊ
,
F
ˊ
+
M
I
B
ˊ
,
F
ˊ
FMI=MI_{\acute{A} ,\acute{F} }+MI_{\acute{B} ,\acute{F} }
FMI=MIAˊ,Fˊ+MIBˊ,Fˊ
其中,
A
ˊ
,
B
ˊ
,
和
F
ˊ
\acute{A} ,\acute{B},和\acute{F}
Aˊ,Bˊ,和Fˊ 分别表示红外图像、可见光图像和融合图像的特征图。较大的 FMI 指标通常表示大量特征信息从源图像传输到融合图像。
SSIM(结构相似性指标测度)
人类视觉系统对结构的丧失和扭曲很敏感。Wang等人提出了一种通用的质量指标,称为结构相似性指数测量(SSIM),用于模拟图像丢失和失真。该指数主要由三个部分组成:相关性损失和亮度和对比度失真。这三个分量的乘积是融合图像的评估结果,定义如下:
S
S
I
M
X
,
F
=
∑
x
,
f
2
μ
x
μ
f
+
C
1
μ
x
2
+
μ
f
2
+
C
1
⋅
2
σ
x
σ
f
+
C
2
σ
x
2
+
σ
f
2
+
C
2
⋅
σ
x
f
+
C
3
σ
x
+
σ
f
+
C
3
SSIM_{X,F}= {\textstyle \sum_{x,f}^{}\frac{2\mu_x\mu_f+C_1 }{\mu _{x}^{2}+\mu _{f}^{2}+C_1 }\cdot \frac{2\sigma_x\sigma_f+C_2 }{\sigma_{x}^{2}+\sigma _{f}^{2}+C_2 }\cdot \frac{\sigma_{xf}+C_3 }{\sigma_{x}^{}+\sigma _{f}^{}+C_3 } }
SSIMX,F=∑x,fμx2+μf2+C12μxμf+C1⋅σx2+σf2+C22σxσf+C2⋅σx+σf+C3σxf+C3
其中 SSIMX、F表示源图像 X 与融合图像 F 之间的结构相似性;x 和 f 分别表示滑动窗口中源图像和融合图像的图像块;
σ
x
f
\sigma_{xf}
σxf系列表示源图像和融合图像的协方差;
σ
x
\sigma_{x}
σx和
σ
f
\sigma_{f}
σf表示标准差(SD);和
μ
x
\mu_x
μx和
μ
f
\mu_f
μf分别表示源图像和融合图像的平均值。C1、C2和 C3是用于使算法稳定的参数;当C1=C2=C3=0,SSIM被简化为通用图像质量指数。因此,所有源图像和融合图像之间的结构相似性可以写成如下:
S
S
I
M
=
S
S
I
M
A
,
F
+
S
S
I
M
B
,
F
SSIM=SSIM_{A,F}+SSIM_{B,F}
SSIM=SSIMA,F+SSIMB,F
其中,
S
S
I
M
A
,
F
SSIM_{A,F}
SSIMA,F和
S
S
I
M
B
,
F
SSIM_{B,F}
SSIMB,F表示红外/可见光和融合图像之间的结构相似性。
Q A B / F 型 Q^{AB/F型} QAB/F型
QAB/F型测量从源图像传输到融合图像的边缘信息量,并基于源图像中的边缘信息保留在融合图像中的假设。QAB/F型定义如下:
Q
A
B
/
F
=
∑
i
=
1
N
∑
j
=
1
M
Q
A
F
(
i
,
j
)
ω
A
(
i
,
j
)
+
Q
B
F
(
i
,
j
)
ω
B
(
i
,
j
)
∑
i
=
1
N
∑
j
=
1
M
(
ω
A
(
i
,
j
)
+
ω
B
(
i
,
j
)
Q^{AB/F}=\frac{ {\textstyle \sum_{i=1}^{N}} {\textstyle \sum_{j=1}^{M}Q^{AF}(i,j)\omega^{A}(i,j)+Q^{BF}(i,j)\omega^{B}(i,j)}}{{\textstyle \sum_{i=1}^{N}}{\textstyle \sum_{j=1}^{M}(\omega^{A}(i,j)+\omega^{B}(i,j)}}
QAB/F=∑i=1N∑j=1M(ωA(i,j)+ωB(i,j)∑i=1N∑j=1MQAF(i,j)ωA(i,j)+QBF(i,j)ωB(i,j)
其中,
Q
X
F
(
i
,
j
)
=
Q
g
X
F
(
i
,
j
)
Q
a
X
F
(
i
,
j
)
Q_{}^{XF}(i,j)=Q_{g}^{XF}(i,j)Q_{a}^{XF}(i,j)
QXF(i,j)=QgXF(i,j)QaXF(i,j) ,
Q
g
X
F
(
i
,
j
)
Q_{g}^{XF}(i,j)
QgXF(i,j)和
Q
a
X
F
(
i
,
j
)
Q_{a}^{XF}(i,j)
QaXF(i,j)分别表示位置 (i, j) 处的边缘强度和方向值。
ω
x
\omega^{x}
ωx表示每个源图像对融合图像的重要性的权重。一个大的QAB/F型意味着相当多的边缘信息被传输到融合图像。
Q W Q_W QW
Qw可以确定为通用图像质量指数的变体。该度量为图像中的显着视觉区域分配高权重;这些权重可以考虑失真的位置和大小。Qw的定义具体如下:
Q
w
(
A
,
B
,
F
)
=
∑
w
∈
W
c
(
w
)
(
λ
(
w
)
Q
0
(
A
,
F
∣
w
)
+
(
1
−
λ
(
w
)
Q
0
(
B
,
F
∣
w
)
)
)
Q_{w}(A,B,F)= {\textstyle \sum_{w\in W}^{}c(w)(\lambda (w)Q_{0}(A,F|w)+(1-\lambda(w)Q_{0}(B,F|w) ) )}
Qw(A,B,F)=∑w∈Wc(w)(λ(w)Q0(A,F∣w)+(1−λ(w)Q0(B,F∣w)))
其中 w 表示本地窗口,|W|表示图像中的窗口数。
Q
0
(
A
,
F
∣
w
)
Q_{0}(A,F|w)
Q0(A,F∣w)和
Q
0
(
B
,
F
∣
w
)
Q_{0}(B,F|w)
Q0(B,F∣w)可以通过滑动窗口中的通用图像质量指数w计算,
λ
(
w
)
\lambda (w)
λ(w)表示每个窗口的显著性权重,
c
(
w
)
c(w)
c(w)表示所有窗口之间的显著性。
Q E Q_E QE
QE通过修改Qw并且可以考虑人类视觉系统的边缘信息。定义如下:
Q
E
=
Q
W
(
A
,
B
,
F
)
⋅
Q
W
(
A
ˊ
,
B
ˊ
,
F
ˊ
)
a
Q_E=Q_W(A,B,F)\cdot Q_W(\acute{A},\acute{B},\acute{F})^{a}
QE=QW(A,B,F)⋅QW(Aˊ,Bˊ,Fˊ)a
其中,
A
ˊ
,
B
ˊ
,
F
ˊ
\acute{A},\acute{B},\acute{F}
Aˊ,Bˊ,Fˊ分别表示图像 A、B 和 F 的边缘,α 是决定边缘图像贡献的变量。QE由于使用了原始和相应的边缘图像,因此与人类的感知一致。一个高的QE表示良好的融合性能。
SD(标准差)
标准差 (SD) 指标基于反映融合图像分布和对比度的统计概念。SD在数学上的定义如下:
S
D
=
∑
i
=
1
M
∑
j
=
1
N
(
F
(
i
,
j
)
−
μ
)
2
SD=\sqrt{ {\textstyle \sum_{i=1}^{M}} {\textstyle \sum_{j=1}^{N}}(F(i,j)-\mu )^2}
SD=∑i=1M∑j=1N(F(i,j)−μ)2
其中,
μ
\mu
μ表示融合图像的平均值。由于人类视觉系统对对比度的敏感性,高对比度的区域总是吸引人类的注意力。因此,高对比度的融合图像往往会产生较大的SD,这意味着融合后的图像可以达到良好的视觉效果。
SF(空间频率)
空间频率(SF)是基于梯度的图像质量指标,即水平梯度和垂直梯度,分别也称为空间行频(RF)和列频(CF)。SF指标可以有效地测量图像的梯度分布,从而揭示图像的细节和纹理。此指标定义如下:
S
F
=
R
F
2
+
C
F
2
SF=\sqrt{RF^2+CF^2}
SF=RF2+CF2
R
F
=
∑
i
=
1
M
∑
j
=
1
N
(
F
(
i
,
j
)
−
F
(
i
,
j
−
1
)
)
2
RF= \sqrt{ {\textstyle \sum_{i=1}^{M}} {\textstyle \sum_{j=1}^{N}}(F(i,j)-F(i,j-1))^2}
RF=∑i=1M∑j=1N(F(i,j)−F(i,j−1))2
C
F
=
∑
i
=
1
M
∑
j
=
1
N
(
F
(
i
,
j
)
−
F
(
i
−
1
,
j
)
)
2
CF= \sqrt{ {\textstyle \sum_{i=1}^{M}} {\textstyle \sum_{j=1}^{N}}(F(i,j)-F(i-1,j))^2}
CF=∑i=1M∑j=1N(F(i,j)−F(i−1,j))2
根据人类视觉系统,具有大的SF的融合图像对人类感知敏感,具有丰富的边缘和纹理。
AG(平均梯度)
平均梯度(AG)指标量化了融合图像的梯度信息,并表示其细节和纹理。AG 指标定义如下:
A
G
=
1
M
N
∑
i
=
1
M
∑
j
=
1
N
▽
F
x
2
(
i
,
j
)
+
▽
F
y
2
(
i
,
j
)
2
AG=\frac{1}{MN} {\textstyle \sum_{i=1}^{M}}{\textstyle \sum_{j=1}^{N}}\sqrt{\frac{\bigtriangledown F_{x}^{2}(i,j)+\bigtriangledown F_{y}^{2}(i,j) }{2} }
AG=MN1∑i=1M∑j=1N2▽Fx2(i,j)+▽Fy2(i,j)
其中,
▽
F
x
(
i
,
j
)
=
F
(
i
,
j
)
−
F
(
i
+
1
,
j
)
\bigtriangledown F_{x}^{}(i,j)=F(i,j)-F(i+1,j)
▽Fx(i,j)=F(i,j)−F(i+1,j)和
▽
F
y
(
i
,
j
)
=
F
(
i
,
j
)
−
F
(
i
,
j
+
1
)
\bigtriangledown F_{y}^{}(i,j)=F(i,j)-F(i,j+1)
▽Fy(i,j)=F(i,j)−F(i,j+1).AG度量越大,融合图像包含的梯度信息越多,融合算法的性能越好。
MG(平均梯度)
平均梯度 (MG) 指标类似于 AG 指标,定义如下:
M
G
=
1
(
M
−
1
)
(
N
−
1
)
×
∑
x
=
1
M
−
1
∑
y
=
1
N
−
1
(
F
(
x
,
y
)
−
F
(
x
−
1
,
y
)
)
2
+
(
F
(
x
,
y
)
−
F
(
x
,
y
−
1
)
)
2
2
MG=\frac{1}{(M-1)(N-1)}\times {\textstyle \sum_{x=1}^{M-1}}{\textstyle \sum_{y=1}^{N-1}}\sqrt{\frac{(F(x,y)-F(x-1,y))^2+(F(x,y)-F(x,y-1))^2 }{2} }
MG=(M−1)(N−1)1×∑x=1M−1∑y=1N−12(F(x,y)−F(x−1,y))2+(F(x,y)−F(x,y−1))2
较大的MG指标表明融合图像包含丰富的边缘和纹理,因此具有良好的融合性能。
MSE(均方误差)
均方误差 (MSE) 计算融合图像与源图像中的误差的比较,从而测量融合图像与源图像之间的差异。MSE 定义如下:
M
S
E
=
M
S
E
A
F
+
M
S
E
B
F
2
MSE=\frac{MSE_{AF}+MSE_{BF}}{2}
MSE=2MSEAF+MSEBF
其中,
M
S
E
X
F
=
1
M
N
∑
i
=
0
M
−
1
∑
j
=
0
N
−
1
(
X
(
i
,
j
)
−
F
(
i
,
j
)
)
2
MSE_{XF}=\frac{1}{MN} {\textstyle \sum_{i=0}^{M-1}} {\textstyle \sum_{j=0}^{N-1}}(X(i,j)-F(i,j))^2
MSEXF=MN1∑i=0M−1∑j=0N−1(X(i,j)−F(i,j))2,MSEAF和MSEBF表示融合图像和红外/可见光图像之间的差异。较小的 MSE 指标表示良好的融合性能,这意味着融合图像近似于源图像,并且在融合过程中发生的误差最小。
RMSE(均方根误差)
均方根误差 (RMSE) 指标类似于 MSE 指标,定义如下:
R
M
S
E
=
R
M
S
E
A
F
+
R
M
S
E
B
F
2
RMSE=\frac{RMSE_{AF}+RMSE_{BF}}{2}
RMSE=2RMSEAF+RMSEBF
R
M
S
E
=
1
M
N
∑
m
=
0
M
−
1
∑
n
=
0
N
−
1
(
X
(
m
,
n
)
−
F
(
m
,
n
)
)
2
RMSE=\sqrt{ \frac{1}{MN} {\textstyle \sum_{m=0}^{M-1}} {\textstyle \sum_{n=0}^{N-1}}(X(m,n)-F(m,n))^2}
RMSE=MN1∑m=0M−1∑n=0N−1(X(m,n)−F(m,n))2
MSEAF和MSEBF表示融合图像和红外/可见光图像之间的差异。较小的RMSE指标表示融合后的图像具有少量的误差和失真。
PSNR(峰值信噪比)
峰值信噪比 (PSNR) 指标是融合图像中峰值功率和噪声功率的比值,因此反映了融合过程中的失真。PSNR 指标定义如下:
P
S
N
R
=
10
log
10
r
2
M
S
E
PSNR=10\log_{10}{\frac{r^2}{MSE} }{}
PSNR=10log10MSEr2
其中, r 表示融合图像的峰值。PSNR越大,融合后的图像与源图像越接近,融合方法产生的失真就越小。
VIF(视觉信息保真度)
视觉信息保真度(VIF)度量衡量融合图像的信息保真度,与人类视觉系统一致。VIF旨在建立一个模型来计算融合图像和源图像之间的失真,这个过程可以通过四个步骤来实现。首先,对源图像和融合图像进行过滤,并将其划分为不同的块;其次,评估每个块有失真和无失真的视觉信息。第三,计算每个子频段的VIF。最后,计算基于VIF的总体指标。
CC(相关系数)
相关系数 (CC) 衡量融合图像和源图像的线性相关程度,定义如下:
C
C
=
(
r
A
F
+
r
B
F
)
2
CC=\frac{(r_{AF}+r_{BF})}{2}
CC=2(rAF+rBF)
其中,
r
X
F
=
∑
i
=
1
M
∑
j
=
1
N
(
X
(
i
,
j
)
−
X
ˉ
)
(
F
(
i
,
j
)
−
μ
)
∑
i
=
1
M
∑
j
=
1
N
(
X
(
i
,
j
)
−
X
ˉ
)
2
(
∑
i
=
1
M
∑
j
=
1
N
(
F
(
i
,
j
)
−
μ
)
2
)
r_{XF}=\frac{ {\textstyle \sum_{i=1}^{M}}{\textstyle \sum_{j=1}^{N}}(X(i,j)-\bar{X})(F(i,j)-\mu ) }{\sqrt{{\textstyle \sum_{i=1}^{M}}{\textstyle \sum_{j=1}^{N}}(X(i,j)-\bar{X})^2}({\textstyle \sum_{i=1}^{M}}{\textstyle \sum_{j=1}^{N}}(F(i,j)-\mu )^2)}
rXF=∑i=1M∑j=1N(X(i,j)−Xˉ)2(∑i=1M∑j=1N(F(i,j)−μ)2)∑i=1M∑j=1N(X(i,j)−Xˉ)(F(i,j)−μ) 和
X
ˉ
\bar{X}
Xˉ表示源图像 X 的平均值。CC越大,融合图像与源图像的相似度越高,融合性能越好。
NCC(非线性相关系数)
非线性相关系数(NCC)表示融合图像与源图像之间的非线性相关性,可按如下方式计算:
N
C
C
(
X
;
F
)
=
2
+
∑
i
=
1
b
2
n
i
N
log
b
n
i
N
NCC(X;F)=2+ {\textstyle \sum_{i=1}^{b^2}\frac{n_i}{N}\log_b{}{\frac{n_i}{N} } }
NCC(X;F)=2+∑i=1b2NnilogbNni
其中,ni表示分布在第i个秩中的样本数,b表示总秩数,N表示样本对总数。
其他指标
其他图像融合指标包括localized MI normalized MI, Weber MI, QP , average pixel intensity, andsum of correlation differences等。
七 实验
本文选取了18种具有代表性的方法和9个评估指标进行实验,这些方法可以为不同的红外和可见光图像融合方法提供客观的性能参考,从而为相关工程提供可信和坚实的证据支持。具有代表性的红外和可见光图像融合方法如下(依次按顺序): LP, 小波,非化学反应疗法,双树多分辨率离散余弦变换(DTMDCT),交叉双侧过滤器 (CBF), 混合多尺度分解(HMSD), 引导滤波融合(GFF), 各向异性扩散融合(ADF),ASR,LP和稀疏表示(LPSR), 定向信息激励PCNN (OI-PCNN),NSCT结构域中的SF-PCNN(NSCT-SF-PCNN),定向离散余弦变换和PCA(DDCTPCA),FPDE, 基于视觉显著性的双尺度图像融合(TSIFVS)、局部保边LC(LEPLC)、梯度转移融合(GTF)和IFEVIP。LP、Wavelet、NSCT、DTMDCT、CBF、HMSD、GFF和ADF是具有代表性的基于多尺度变换的方法,ASR和LPSR是具有代表性的基于稀疏表示的方法,OI-PCNN和NSCT-SF-PCNN是基于神经网络的代表性方法,DDCTPCA和FPDE是基于子空间的代表性方法,TSIFVS和LEPLC是基于显著性的代表性方法,GTF和IFEVIP属于其他方法类别。这 18 种方法中的许多,包括 GFF、LPSR、NSCT-SF-PCNN、DDCTPCA、TSIFVS 和 LEPLC,都可以被认为是混合模型,因为它们结合了不同的方法。LPSR是一种混合的多尺度变换和稀疏表示方法,NSCT-SF-PCNN是一种混合的多尺度变换和神经网络模型,DDCTPCA是一种混合的多尺度变换和子空间方法,GFF、TSIFVS和LEPLC是混合的多尺度变换和显著性方法。18种具有代表性的图像融合方法的代码均已公开,其参数均按照原始研究中的参数进行设置。
我们在TNO人为因素的监控图像上测试了18种代表性方法,这些图像包含不同军事相关场景的多光谱夜间图像,在不同的多波段摄像系统中配准。我们对 12 个具有代表性的图像红外/可见光对和 2 个红外/可见光图像序列进行实验,进行定性和定量比较。我们选择了九个常用的评估指标,即EN 、MI 、SSIM ,QAB/F型,QW 、SD 、SF 、VIF 和CC ,以评估不同红外和可见光图像融合方法的性能。较大的评估指标值表示模型性能良好。
下图显示了18种代表性方法在12个红外和可见光图像对上的视觉融合性能。除DTMDCT外,其他具有代表性的基于多尺度变换的方法都获得了相似的视觉融合性能。DTMDCT的融合性能通常优于其他基于多尺度变换的方法,而使用DTMDCT的Bunker和Tank的融合性能明显差于其他基于多尺度变换的方法。ASR和LPSR两种具有代表性的稀疏表示方法在12个图像对上获得了相当的融合性能。相比之下,两种基于神经网络的代表性方法OI-PCNN和NSCT-SF-PCNN的融合性能在不同的图像对下差异很大。使用OI-PCNN和NSCT-SF-PCNN在Kaptein、Kayak和Octec上的融合结果显示出许多非光滑色块形式的严重畸变,而使用这两种方法的其他9个图像对可以获得相当的融合性能。与基于稀疏表示的方法类似,DDCTPCA和FPDE两种具有代表性的基于子空间的方法也可以对所有图像对产生相当的融合性能。TSIFVS和LEPLC这两种具有代表性的基于显著性的方法可以比其他方法更好地将显著性信息(如目标)传输到融合图像上。使用GTF融合的图像可以保留红外图像中的热辐射强度信息和可见光图像中的细节纹理信息。使用IFFEP融合的图像可以突出重要的红外物体,并达到视觉质量。
此外,我们报告了使用18种代表性方法对12个图像对的9个指标的结果,如图所示,可以对不同方法的融合性能进行定量比较。
我们还对Nato_camp和Dune sequence两个红外和可见光图像序列进行了实验,以评估所选方法的融合性能;这些序列分别包含 32 个和 23 个图像对。结果如图所示。
定量实验结果表明,每种算法各有优缺点,不同的方法在不同方面表现出优越性。
- 基于多尺度变换的方法在Qw和CC表现优越;这些值意味着大量的梯度从源图像传输到最终结果。
- 基于稀疏表示的方法在 SSIM 中占主导地位;因此,该算法在融合过程中引入了最小的失真。
- 基于PCNN的方法在MI中取得了良好的性能,但在SSIM中表现出较低的值。这些结果表明定性实验存在严重失真。
- 基于子空间的方法在MI中表现不佳;这些值表示只有少量源信息被传输到融合图像。
- 基于显著性的方法在EN和SD中表现出优势;这些数字表明信息丰富,对比度大。
- 其他方法的表现相对平庸,得分排在中间。
此外,对18种方法在两个序列上的运行时间进行了比较,其中图像的大小均为270×360,每个值表示相应方法在序列上运行时间的平均值和SD。结果表明,基于多尺度变换的方法具有较宽的性能。这些模型中的大多数都是快速而稳定的,并且具有较小的均值和标准方差。然而,一些方法,如 NSCT 和 CBF,速度很慢。ASR、NSCT_SF_PCNN和DDCTPCA也相对较慢,可能不适合需要实时实现融合的监视和跟踪应用。
结论和未来趋势
红外和可见光图像融合在过去几十年中引起了人们的广泛关注,并取得了重大进展。因此,我们综合研究了现有的红外和可见光图像融合方法和应用。这些方法可以分为七类:基于多尺度分解的方法、基于稀疏表示的方法、基于神经网络的方法、基于子空间的方法、基于显著性的方法以及基于混合方法和其他模型的方法。每个类别都根据核心思想、理论、程序和进展进行简要介绍和总结。图像配准显著影响融合性能;因此,我们简要回顾了现存的配准技术。红外和可见光图像融合方法因其优势和进步而被广泛应用于目标检测识别、跟踪、图像增强、监控和遥感等不同领域。然后,我们总结了几种常用的红外和可见光图像融合评估指标,以评估所研究的红外和可见光图像融合方法的性能。此外,我们进行了广泛的实验来评估不同代表性方法的性能,以潜在地为红外和可见光图像融合领域的研究人员提供客观的性能参考,从而为相关工程提供可信和坚实的证据支持。
尽管在红外和可见光图像融合方面取得了相当大的进展,但仍有几个问题需要未来的工作。
- 基于多尺度变换的红外和可见光图像融合方法通常固定基函数和分解水平。选择灵活的基函数,允许数据驱动选择源图像的最佳表示形式仍然具有挑战性,分解水平的自适应选择仍有待解决。
- 基于边缘保留滤波的方法已广泛用于图像融合,并且可以设计高效、鲁棒和通用的滤光片(例如,原始滤光片的扩展)用于红外和可见光图像融合。
- 传统的基于稀疏表示的融合方法往往采用基于补丁的程序,忽略了不同补丁之间的相关性,导致细节信息的丢失。未来,可以考虑不同贴片之间的相关性来提高融合性能。卷积稀疏编码可用于增强详细信息。这个想法是由反卷积网络推动的,该网络旨在构建源图像的稀疏表示的层次结构。
- 很少有基于深度学习的融合方法专门用于红外和可见光图像融合。未来,最先进的深度学习技术可以应用于红外和可见光图像的融合。例如,可以设计更有效的深度模型来执行联合活动水平测量和体重分配。(不得不说,这个真的很有远见,基于深度学习的VIF已经成为了目前的主流趋势)
- 红外传感器和可见光传感器的成像机理不同;因此,我们应该分别设计红外和可见光图像的生态位靶向显著性检测方法。物体的热信息由红外图像中的像素强度反射,使用显著性检测方法时,噪声严重的区域很容易被视为目标。因此,在今后的工作中应设计抗噪声显著性检测方法。
- 不同的红外和可见光图像融合方法各有优缺点,应结合不同方法的优点,以获得高效的混合图像融合方法。
- 红外和可见光图像传感器的空间分辨率有时不同;因此,未来可以进行联合图像超分辨率和融合。
- 传统的红外和可见光图像融合方法通常会忽略噪声。在今后的工作中,可以进行联合图像去噪和融合。
- 没有严格对齐的图像对会导致融合图像出现重影。原始图像和融合图像之间显著结构的不一致可以为图像配准提供指导。因此,在设计融合规则时,可以将空间变换视为一个变量,可以同时进行配准和融合,以消除重影。(将配准和融合同时进行的第一篇论文好像也是作者实验室的,在2022年提出,2023年做了改进)
- 传统的融合方法主要侧重于设计适当的原则,以尽可能地在源图像中保留有用的信息。未来,融合方法的开发也应重点放在应用上。例如,融合不应生成信息丰富的融合图像,而应突出显示特定应用中的宝贵信息。(这个就是目前很多发表的基于下游任务的图像融合方法,比如识别和分割)
- 融合性能评估方法通常使用边缘和强度来计算红外和可见光图像对融合图像的贡献,但这些特征与人类视觉系统并不明显一致。一种趋势是设计代表符合人类视觉系统的视觉信息的特征。另一个趋势是提出一个新模型来表示融合图像和源图像之间的信息转换。
- 由于融合算法的定性性能可能并不总是与其定量性能相匹配,因此需要设计新的指标,使其能够与融合图像的定性性能相匹配。
不得不说作者真的对VIF很有见解,但是可以看到VIF的发展在近5年随着深度学习的提出得到了迅猛的发展。
文章有不对之处,请各位批评指正。
J. Ma, Y. Ma, and C. Li, “Infrared and visible image fusion methods and applications: A survey,” Inf. Fusion, vol. 45, pp. 153–178,2019. ↩︎