热图像增强之TEN网络(Thermal Image Enhancement using Convolutional Neural Network)

热图像增强之TEN网络(Thermal Image Enhancement using Convolutional Neural Network)

摘要

随着商品自主手机的出现,在极端条件下,如夜间、不稳定的照明条件下,识别越来越普遍。这种需要导致了使用多模态传感器的方法,这些传感器可以相互补充。热敏相机的选择提供了丰富的温度信息源,受照明变化或背景杂波影响较小。然而,现有的热像仪的分辨率相对小于RGB摄像机,在识别任务中难以充分利用信息。

为了缓解这种情况,我们的目标是根据现有方法的广泛分析,增强低分辨率热图像。为此,我们引入了使用卷积神经网络(CNN)的热图像增强,称为TEN,它直接学习从单个低分辨率图像到所需高分辨率图像的端到端映射。此外,我们检查各种图像域,以找到热增强的最佳代表。总体而言,我们提出了第一种基于RGB数据的CNN热图像增强方法。我们提供了大量的实验,旨在评估图像质量和几个目标识别任务的性能,如行人检测、视觉里程计和图像配准。

介绍

目标识别是现代机器人研究中的一个重要问题,因为它在商业系统中具有极其重要的意义,从自动驾驶汽车到自动机器人。RGB传感器技术和算法的最新进展鼓励了在合理情况下的性能。但是,对象可以在不同的照明、天气和遮挡条件下出现。这些变化仍然使基于RGB摄像机的目标识别成为一个具有挑战性的问题。目标识别的当前技术水平包括涉及多模态监控的方法。多模态监控需要其他光谱传感器在特定条件下提供有关当前感兴趣对象的补充信息。

热相机是一种很有前途的选择,它可以在背景杂乱或缺乏照明的复杂场景中提供温度信息。在这种情况下,与RGB摄像机相比,热摄像机在目标检测和场景理解方面更为突出。因此,在现代机器人系统和研究中越来越多地发现了热传感器。随着商用热设备的发展,以往研究中使用的大多数热相机的分辨率都低于RGB相机,这种低分辨率给广泛的应用领域带来了重大挑战。

几十年来,这些问题一直被认为是RGB领域的一个重要问题,可以有效地将低分辨率的输入放大到高分辨率的输出,称为图像增强。因此,图像增强在安全、监控、医学成像、移动平台、法医学等领域得到了广泛的应用,对图像质量提出了更高的要求。处理图像增强的方法有多种,从传统插值、Lanczos重采样到内部/外部相似性、基于学习的方法,如稀疏表示、随机森林。自SRCNN[13]成功地将深度学习技术引入图像增强问题以来,基于深度学习的方法已被使用,并在性能上有了很大的改进[14]。此外,通过应用图像增强算法,该增强不仅可以提高可视性,还可以帮助完成视觉识别任务,如人脸识别[15][16]、三维建模[17]、SLAM[18]和机器人导航[19]。

与基于RGB的成功方法不同,在计算机视觉和机器人学会中,对热成像1增强的理解仍然相对未知。只有少数技术可以试探性地增强低分辨率热图像,例如手动调整的各种摄像机参数[21],基本图像处理技术(直方图均衡化)[1]。

在本文中,我们考虑热图像增强问题。这主要受到基于RGB的方法的最新进展的启发,该方法使用卷积神经网络。首先,我们将域选择作为增强热像的最佳代表。请注意,训练数据域对增强结果的质量有着至关重要的影响。在选择之后,我们对网络进行了紧凑的设计,以产生高质量的输出,并在较低的计算环境(如CPU)中用作实际用途。最后,我们在公共热基准数据集[1][20]上进行了大量实验,并完成了各种目标识别任务:行人检测、视觉里程测量和具有特征对应的图像拼接,以证明我们增强结果的可见性和实用性。据我们所知,我们首先将热图像增强的概念调整为深度神经网络框架。我们将提议的网络命名为热增强网络(TEN)2。

方法

对于热图像增强,受[13] (SRCNN)的启发,我们设计了一个相对较浅的卷积神经网络。虽然更深层次的神经网络在图像增强方面表现出更好的性能,但它需要高规格的内存容量。我们的网络结构相对较轻,可以在CPU环境中实际使用。

我们建议的网络配置如图所示。给定一幅低分辨率图像,我们首先以均匀的步幅将整个图像裁剪成所需的大小,然后使用双三次插值进行放大。将插值图像表示为X。我们的目标是从X恢复重建图像Y,该图像Y尽可能类似于原始高质量地面真相G。我们的网络有两个主要组成部分:面片提取/表示和重建。
TEN网络结构
优化过程是通过随机梯度下降和一般的反向传播方案来完成。

在进行训练时,我们同时测量PSNR(峰值信噪比),这是一个用于定量评估图像恢复质量的众所周知的指标,并测量感知质量以检查学习的重建结果的进度。尽管PSNR测量是我们学习目标的一个非常合适的度量,但由于存在可微问题,它不容易用作目标函数。

出于我们的目的,我们需要成对的低分辨率和高分辨率热图像来训练模型,因为基于CNN的方法目前严重依赖于资源的可用性。然而,只有很少的热数据集,甚至许多热数据集是由低分辨率的热图像组成的,而不是成对的,因为高质量的热相机仍然昂贵,无法普遍用于研究目的。此外,来自生物的热测量值很容易因遮挡和周围环境而改变,与其他域图像相比,它不是尖锐或明显的。这种变化可能会被干扰,以重建所需的输出。

自然地,其他频谱域是训练模型替代方案的有力候选。幸运的是,在其他频谱域中有许多对数据集被设计为图像增强任务。此外,由于热图像的光谱随波长变化的特性,我们假设低光谱域更有助于增强热图像的清晰度和对比度。因此,我们包含两种类型的域,RGB(RGB 91)[11]和MWIR(ThermalStereo)[23],它们的波长相对低于我们的目标域,具有更清晰的梯度信息。为了公平比较,我们使用相同的参数和条件训练了所提出的模型,并测试了MDS基准[20],包括100幅热图像。双三次插值被用作基线,我们测量了所有测试图像的平均峰值信噪比。

结果表明,基于RGB的模型在热域增强方面出奇地好,显示出比基线方法更好的性能,而基于MWIR的模型不能正确地恢复所需的输出,甚至不能达到基线的PSNR。我们可以在定性结果中显示相同的情况。RGB输出看起来干净锐利,而MWIR的结果在视觉上并不令人满意。此外,MWIR的背景会随着膨胀、弯曲而扭曲,并且似乎会扩散到对象的周围区域。根据这一观察,我们决定使用RGB图像训练模型,这是我们的RGB引导图像增强的基本概念。

训练

数据集

训练数据集:如上所述,我们使用RGB训练数据集,由Yang等人[11]的RGB 91图像组成。在这个实验中,我们没有为了一般目的而增加原始数据集,例如翻转、旋转。我们将两种规模网络训练为因子2和因子3。在训练阶段,GT准备为36×36个面片,允许相邻面片6像素重叠。为了合成低分辨率的面片,我们根据比例因子有意地使用适当的高斯核模糊面片, 并通过双三次插值以相同的因子对其进行放大。与以前在YCbCr颜色空间中考虑亮度通道的工作〔13〕〔14〕相比,我们仅在实验中使用灰度通道,因为热图像不能转换为YGBCR颜色空间作为RGB。请注意,不同的通道在定量结果中可能会受到影响[13],但是,我们在本文中不比较这些不同的通道。

测试数据集:对于基准测试,我们使用三个数据集:ThermalStereo(TSD)[23]、KAIST Multispectral[3]、Multimalstereo(MSD)[20]。所有数据集将在以下部分详细解释。与训练数据集类似,我们准备了36×36个补丁,具有6个步幅和两个比例因子。训练和测试数据集的验证通过目标数据集上的平均峰值信噪比来衡量。

参数设置

我们提供用于训练和再现网络模型的参数。我们使用深度为4的网络,批量大小为128。动量和重量衰减参数分别设置为0.9和0.0005。
对于权重初始化,我们使用[24]中描述的方法。我们训练了100多个epochs。学习率从0.001开始,每30个阶段下降10倍,直到60个阶段。我们使用定制的MatConvNet库实现我们的模型[25]。

结果

在所有实验中,TEN方法产生的平均峰值信噪比均优于基线。考虑到峰值信噪比测量具有对数标度单位,我们的方法获得的高质量输出比数值增加的多。原始热图像中物体的模糊边界几乎增强了所有尺度因子中TEN因子的结果。特别是,我们的网络模型仅通过最小化像素噪声、平滑、强度伪影(如斑点、扩散)来锐化对象边界和细节,这通常发生在直方图均衡化、去噪等常规图像处理技术中。

连接

原文地址

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值