** 红外图像增强(2)Brightness-Based Convolutional Neural Network for Thermal Image Enhancement (TIECNN)论文阅读**
摘要
本文提出了一种结合亮度域和残差学习技术的卷积神经网络热图像增强方法,提高了增强性能和收敛速度。通常,训练域使用与目标图像相同的域;然而,我们评估了几个域,以确定最适合网络的域。在分析中,我们首先比较了分别由基于颜色和对齐红外图像的相应区域训练的网络的性能,包括热光谱、远光谱和近光谱。然后,评估四个基于RGB的区域,即灰度、亮度、强度和亮度。最后,通过考虑残差域和亮度域来确定所提出的网络结构。分析结果表明,亮度域是增强热图像的最佳训练域。实验结果表明,该网络可在约一小时内训练,在多个图像质量指标和定性评估方面优于传统的基于学习的热图像增强方法。此外,结果表明,亮度域作为训练域是有效的,可以用来提高现有网络的性能。
介绍
精确和高质量(HQ)热红外图像在各种应用中都需要,包括行人检测[1]、[2]、监视[3]、军事[4]、火灾检测[5]、视觉里程计[6]和气体检测[7]。尽管各种计算机视觉技术都是基于RGB摄像机开发的,但它们都面临着挑战性的问题,例如光照和黑暗环境的变化。为了解决灰度或彩色图像中的这些挑战,引入了热图像。热图像在存在照明变化的情况下具有鲁棒性,并且可以利用关于对象的热信息。这是因为热照相机能够在室内和室外环境中使用中波长红外(MWIR)(3–8µm)和长波红外(LWIR)(8–15µm)光谱捕捉温度信息,而不考虑照明或纹理的复杂性。
可用于捕获HQ热图像的热传感器价格昂贵,而低成本的商用热传感器受到低信噪比、模糊和光晕效应的限制,因此难以在实际应用中使用。
为了克服这些挑战,最近提出了许多方法来增强低质量(LQ)热图像。以前,大多数方法都是通过使用空间域和频域[8]来推广的,包括直方图均衡化、对比度调整、变换、经验模式分解等。引入了基于直方图均衡化的方法,通过近似均匀地分布热图像的直方图来增加整体对比度[9],[10]。Shao等人[11]提出了一种基于平台直方图均衡化和离散平稳小波相结合的增强红外图像全局和局部对比度的新方法。Ni等人[12]提出了一种基于小波扩散的红外图像边缘增强和保持算法,同时降低了噪声。Bai等人[13]提出了一种通过采用多尺度新的top-hat变换来增强对比度的方法。文献[8]提出了一种二维经验模态分解方法,首先将热图像分解为若干固有模态函数。然后,对这些函数进行扩展,并在每个分解层次上与残差进行融合。引入了一种变分红外增强技术[14],利用直方图均衡获得的具有自适应双阈值的梯度场均衡技术来增强边缘细节并防止过度增强。Yuan等人[15]提出了一种多方面的方法,通过自适应地操纵图像的对比度、锐度和强度来增强图像对比度和细微图像细节。应该注意的是,这些方法是试探性地设计来调整热信息的,因此不能考虑各种热图像,因此限制了它们的应用。
最近,基于卷积神经网络(CNN)的方法在各种视觉任务中,如目标检测[16]、[17]、图像识别[18]、[19]和超分辨率图像[20]–[22],与以前手工制作的基于特征的方法相比,取得了创纪录的性能。Choi等人[23]提出了第一个基于CNN的增强热图像的方法,他受[20]中建议的启发设计了一个相对较浅的CNN。CNN不仅在增强热图像质量方面取得了成功,而且在验证各种应用中的性能改进方面也取得了成功,包括基于增强热图像的行人检测、视觉里程计和图像配准。
在本文中,我们提出了一种基于残差学习[21]的热图像增强卷积神经网络(TIECNN)1,其动机是[22]。由于输入LQ和输出HQ图像高度相关,因此使用剩余学习仅训练高频分量就足够了。此外,该方法还可以解决消失/爆炸梯度问题[24]。在基于监督学习的CNN中,训练图像的选择显著影响网络的性能。对于超分辨率彩色图像,Dong等人[20]探索了不同通道上的性能,并通过实验证明了网络精度的差异取决于训练域。他们证明了基于Y-only通道(luma)的网络取得了可信的结果。但是,由于luma和热图像之间的距离差异,用于热图像的网络不能由luma通道训练或基于luma通道训练。Choi等人[23]使用不同的数据集比较了基于灰度和MWIR图像的网络性能。尽管他们发现基于灰色的网络比基于MWIR的网络提供更好的性能,但我们认为他们的比较是不公平的,因为他们使用的数据集包含完全不同的场景和模式。例如,他们用于灰色网络的数据集[25]已广泛用于各种CNN方法[20]–[23],[26],而长波红外数据集[27]则没有。由于在训练过程中学习较差的参数,这种差异可能会导致有偏差的结果。
因此,为了确保公平比较,我们研究了将每个网络训练到同一数据集中相应的彩色和对齐红外图像区域的结果。此外,我们在相同的实验条件下评估了四个域的性能,这四个域从彩色图像转换而来,然后应用于热图像。我们通过实证验证了基于亮度域的网络比其他域网络具有更好的性能,这也适用于现有网络。
总之,在所提出的网络中,通过对LQ热图像进行像素级相加作为输入,并将基于亮度的残差作为输出,生成HQ热图像。实验结果表明,我们提出的网络优于传统的基于学习的方法,通过各种图像质量度量来衡量:1)全参考质量评估:峰值信噪比(PSNR)、结构相似性(SSIM)[28]和信息保真度标准(IFC)[29];无参考质量评估:自然度图像质量评估器(NIQE)[30],无参考感知模糊度量(NPBM)[31],轮廓体积(CV)[32]和均匀强度分布(UID)[32]。
本文的贡献如下。首先,据我们所知,我们的方法是首次尝试设计使用亮度域训练的残差学习CNN来增强热图像,这提高了收敛速度和增强性能。
其次,我们研究了几个公共热数据集,以收集高质量的热图像,并在考虑各种环境和情况的同时,利用这些图像评估我们网络的一般性能。第三,我们比较了各种域作为训练数据的性能,并通过两项实验研究验证了基于亮度域的网络达到了最佳精度,即:1)评估由灰度和对齐IR(热、远或近)的相应区域训练的网络同一数据集中的图像对;以及2)使用可从RGB图像转换到热图像范围的四个训练域(即灰度、亮度、强度和亮度域)进行实验。最后,基于许多指标,列出了与最好方法的比较研究
本文的其余部分组织如下。
第二节描述了拟议网络的架构。
第三节介绍了实验结果和讨论。最后,第四节阐述了本研究的结论。
TIECNN网络
在本节中,我们将介绍所提出的网络及其用于热图像增强的训练策略。我们的网络架构如图1所示。该网络采用残差学习,只学习LQ和HQ图像之间的高频信息,由亮度图像代替热图像进行训练。换句话说,在训练阶段使用亮度域的LQ和地面真实HQ图像。在测试阶段,将残差图像添加到输入LQ热图像中,以恢复HQ热图像。
该网络由三个模块组成:特征提取、映射和图像重建。每个块中的卷积层表示为n×Conv(s,d),其中变量n、s和d分别表示层数、滤波器大小和特征尺寸。这些变量是决定网络性能的重要因素。
第三节描述了最佳网络的每个变量的分析,并在以下小节中解释了网络设计的细节。
特征提取
为了提取高频信息的特征,通过卷积从输入(LQ)图像中提取一组特征映射。高维向量用于表示从输入图像中提取的图像面片。这些向量由一组特征映射组成,通过网络从训练数据中学习图像块的特征映射。
特征提取块由核大小为sf的nf卷积层组成,其输出df特征如下:nf×Conv(sf,df)。每个变量的确定应考虑以下因素:nf表示可在较低层提取的低层特征,如边或角,以及可在较高层提取的更复杂特征,如纹理[33];sf表明,大尺寸卷积核可以用小尺寸核的多个阶段代替,以减少参数数量和计算成本,同时保持相同的感受野[34];d表示LQ特征尺寸的数量,这是影响性能的一个因素。因此,确定所有变量的最佳值非常重要。
映射
从上一块提取的特征由该块非线性映射,该块由三个模块组成:收缩、非线性映射和扩展。[22]中的作者指出,与单个卷积层相比,这些模块减少了参数数量,实现了更好的性能。
收缩模块旨在通过1×1卷积[35]将特征尺寸df的数量减少为浅特征尺寸dm(dm<df),该卷积作为LQ特征的线性组合,可表示为Conv(1,dm)。通过进行1×1卷积,可以对来自多个特征映射的具有相似属性的特征进行分组,这会影响后续的非线性映射模块。这降低了计算成本,允许非线性映射模块更深,并且具有通过更深模块的激活函数提供额外非线性的优点。
非线性映射是LQ热成像增强中最重要的模块,它决定了LQ热成像的精度和复杂度。由于图层数量和特征尺寸会影响此性能,因此应仔细确定这些变量的值。该模块由具有相同内核尺寸3和特征尺寸dm的nm层组成,其可以表示为nm×Conv(3,dm)。
在扩展模块中,映射的特征被扩展到与特征提取块的特征尺寸df相同的大小。该层的作用类似于收缩模块的反向操作。通过扩展特征维数,可以增加高质量重建所需的信息量。为了保持与收缩模块的一致性,采用了一个带有1×1滤波器的卷积层,其可表示为Conv(1,df)。
总之,映射块的结构为Conv(1,dm)-nm×Conv(3,dm)-Conv(1,df)。
图像重构
该块聚集详细信息并预测高频(残差)图像。用于图像增强的CNN通常使用目标图像域进行学习,这意味着训练图像的域等于测试图像的域。
然而,在我们的网络的训练阶段没有使用热图像,因为我们发现由亮度域引导的重建优于使用其他域训练的网络,这将在下一节中讨论。因此,图像重建块预测由亮度域训练的残差。
采用3×3卷积的卷积层重构细节信息Conv(3,1)。通过亮度域学习网络的训练,在测试中,输入热图像和输入图像产生的残差被合理地组合,以产生高质量的输出图像。因此,网络预测的图像预计与HQ和LQ图像之间的差异(残差)相似。
训练
零填充
我们在所有层上使用零填充,以避免通过每个层的卷积来减少输出大小,从而使输入和输出特征映射具有相同的大小。
PRELU
除最后一层(图像重建块)外,每个卷积层后面都有一个激活函数。我们使用参数校正线性单元(PReLU)[36]代替更常用的校正线性单元(ReLU)作为激活函数。在ReLU中,负部分为零,而PReLU的不同之处在于,它有一个可学习的参数,可在学习过程中调整负部分的斜率,从而以可忽略的额外计算成本提高精度。因此,当输入值小于零时,PReLU对ReLU的弱点具有鲁棒性。
重构
**除最后一层(图像重建块)外,每个卷积层后面都有一个激活函数。**我们使用参数校正线性单元(PReLU)[36]代替更常用的校正线性单元(ReLU)作为激活函数。在ReLU中,负部分为零,而PReLU的不同之处在于,它有一个可学习的参数,可在学习过程中调整负部分的斜率,从而以可忽略的额外计算成本提高精度。因此,当输入值小于零时,PReLU对ReLU的弱点具有鲁棒性。除了图像细节外,LQ和HQ图像高度相关,细节之间的差异非常小。这意味着仅预测HQ图像生成的高频分量就足够了。因此,我们设计了我们的网络来预测残差。此外,我们通过基于亮度域而不是其他域(包括红外(热、远、近)和基于颜色(灰度、亮度、强度)的图像)的残差学习,以更快的收敛速度获得更好的性能。下一节将对此进行详细讨论。
网络的训练过程旨在最大限度地减少预测图像与相应的高质量图像(地面真实)之间的损失。HQ图像由LQ图像和残差图像的像素相加组成,因此在网络中学习的参数是输入LQ图像X和地面真值Y之间的残差R,R=Y− X.我们使用欧几里德损失作为目标函数,它计算两个输入之间的差平方和:
其中θ是使用N个训练样本的一组学习参数,Yˆi和Rˆi分别是预测的HQ和预测的残差图像。LQ图像X是通过对地面真值HR图像进行下采样,然后使用双三次算法通过比例因子将上采样到原始大小而生成的。
通过使用称为自适应矩估计(Adam)的基于梯度的优化方法将损失降至最低[37]。我们使用方法[36]初始化PReLU激活的卷积滤波器的权重,并通过从高斯分布中随机选择一个平均值为零、标准偏差为0.001的值来初始化没有激活函数的最后一层的权重。
结论
本研究的主要目的是提高热图像的质量。为了实现这一点,我们探索了各种领域,包括基于RGB的和多个红外图像,并进行了大量实验,以确定最相关的训练领域和拟议网络的结构。通过实验分析,我们确定基于亮度域的网络训练是最有效的,它是包含各种模式的RGB数据集的变换。然后通过残差学习将亮度域应用于热图像增强。特别是,亮度域的使用是一个重要因素,不仅在我们的网络中,而且在以前的方法中,它都提高了性能。为了验证我们提出的方法,我们从公共数据集中仔细选择了一个基于高质量热图像的测试数据集,同时考虑了各种情况、环境和传感器。
对比实验的结果表明,我们的网络在定量和定性评估方面优于所有其他方法。我们相信,我们的方法在基于热图像的应用中显示出良好的潜力。在我们未来的工作中,我们将包括一个单一的网络来处理多尺度和多光谱图像。