chenglong Li, Lei Liu, Andong Lu, Qing Ji, and JinTang
1.RGBT挑战:
光照变化(illumination variation)、热交叉(thermal crossover)和遮挡(occlusion)等
2.RGBT深度学习方法分类:
(1)多模态表示学习(如MANet)
(2)多模态融合模型(如mfDiMP)
(3)上述两种的混合模型(如DAPNet)
1.引言
目前存在的RGBT跟踪器,虽然取得了巨大成功,但是没有考虑到不同挑战下的目标外观变化,这可能会影响跟踪性能。
为了解决这个问题,本文提出Challenge-Aware RGBT Tracker(CAT)利用这些挑战的标签,即使训练数据不充分的条件下,也可以学习不同挑战下的鲁棒目标表示。
现存的RGBT跟踪数据集包括对每个视频帧进行手动标注的5个主要挑战,包括光照变化(IV)、快速运动(FM)、尺度变化(SV)、遮挡(OCC)和热交叉(TC)。作者发现,其中一些是共享的模式,包括FM、SV和OCC,其余的是特定的模式,包括IV和TC。为了更好地部署这些特性,作者提出了两种网络结构:
- 对于模态共享挑战,每个模态下的目标外观由一个跨越所有模态的卷积分支建模。
- 对于特定模态的挑战,每个模态下的目标外观由每个模态中的一个卷积分支建模。
不同模式的特定模式分支通常在代表方面具有互补的优势,因此,本文设计了一个引导模块来将判别特征从一个模态转移到另一个模态。特别地,本文设计了一个门控点方向的变化层(a gated point-wise transform layer),它在避免噪声信息传播的同时,增强了某些若模态的判别能力。
所有的 Challenge-aware 分支以一种自适应地方式聚集在一起,并平行嵌入到主干网络中,以有效地形成更具鉴别性的目标表示,这些分支能够以残差信息的形式对特定挑战下的目标外观进行建模,学习目标外观表征只需要少量参数,解决RGBT跟踪在训练数据较少的情况下,在不同挑战下无法捕获目标外观变化的问题。如图所示:
在训练阶段,作者考虑到三个问题,(1)任何属性样本的分类丢失都会反向传播到所有挑战分支。(2)模态特定分支的训练不应该与模态共享分支的训练相同,因为他们包额外的引导模块。(3)训练阶段有挑战注释,但是在测试阶段没有。
为了解决上述问题,作者提出了一个三阶段的方案来有效地训练所提出的网络:
- 第一阶段:删除所有的引导模块和自适应聚合层,然后逐个训练所有Challenge-Aware分支
- 第二阶段:删除了所有自适应聚合层,只训练特定模式挑战分支中的所有引导模块。
- 第三阶段:使用所有具有挑战性和非挑战性的框架在训练数据集中学习自适应聚合层和分离器,同时微调骨干网络的参数。
实验结果表明,提出的三阶段训练方法是有效的。
本文贡献
- 提出一种基于新型挑战感知神经网络的有效深度学习框架,来处理即使RGBT跟踪训练数据不足的情况下,无法对不同挑战下目标外观变化进行建模,
- 提出两种网络结构,分别对模态共享和模态特定挑战下的目标外观进行建模,以便即使在一些弱模态的情况下,也可以学习鲁棒目标表征。
- 基于效率和有效性的考虑,设计了challenge-aware分支的并行和分层架构,并将其以残差信息的形式嵌入到主干网络中。残差信息可以通过少量参数学习到
2.Challenge-Aware
GM:引导模块
AAL:自适应聚合层
2.1 网络结构
2.1.1 Overview
如前所述,不同挑战下无法学习目标外观变化,这限制了RGBT跟踪性能。为了解决这一问题,利用RGBT跟踪数据集中的挑战标注,提出多个挑战感知分支来建模特定挑战下的目标外观。针对RGBT跟踪中不同挑战的特点,将所有挑战分为特定模态挑战和共享模态挑战,并分别提出两种网络结构对其进行建模。此外,作者还设计了一个自适应聚合模块。在跟踪过程中,即使不知道每一帧的挑战,也能自适应地组合多有挑战感知的表示,并能处理在一帧中有多个挑战的情况。为了发展CNN多层特征表达能力,并能处理在一帧中有多个挑战的情况。为了发展CNN多层次特征表达的能力,再用分层结构,在骨干网络的每一层中都添加了Challenge-aware分支。
综上,Challenge-Aware 神经网络包括5个结构:双流cnn主干网络、模态共享挑战分支、模态特定挑战分支、所有分支的自适应聚合模块、层次化的体系结构。
2.1.2 双流CNN主干网络
本文选择了一个轻量级CNN来提取两种模态的目标特征任务进行跟踪。具体来说,使用双流CNN并行提取RGB和热红外表示,卷积层来自VGG-M修正后的三个卷积层。三个卷积层的核大小分别为7×7, 5×5, 3×3。第二层中的最大池化被去掉,在最后一个卷积层中引入空洞卷积,设置为3,来扩大输出特征图的分辨率。为了提高效率,引入ROI-Align池化层,使候选区域的特征可以直接从特征图上提取,这大大地加快了跟踪过程中的特征提取效率。随后,使用三个全连接层fc4-6来适用不同视频和帧中实例的外观变化,最后,使用softmax交叉熵损失好和实例嵌入损失进行二值分类,区分前景和背景。
2.1.3 模态共享分支
现有数据集主要包含5个挑战:光照变化(IV)、快速运动(FM)、尺度变化(SV)、遮挡(OCC)和热交叉(TC)。
其中,模态共享挑战:FM、SV、OCC;模态特定挑战:IV、TC
为了更好地部署挑战的属性,提出两种网络结构:模态共享挑战网络分支和模态特定挑战网络分支。
首先描述模态共享挑战网络分支:
对于模态共享挑战,作者使用一组相同的参数对目标外观进行建模,来捕获不同模态下的协作信息。为此,设计了参数共享卷积层来学习某一模态新共享挑战下的目标表示。为了减少模态共享挑战的参数数量,设计了一个平行结构,在骨干网络上增加了一个具有小卷积核的块。虽然只是用很小的卷积核,但这种设计能够有效地在模态共享共享挑战下对目标信息进行编码。因为不同模态共享的分支应该共享大部分参数,因此共享的模态参数的数量比主干网络要少的多(没看明白这句话)具体来说,在第一个卷积层中使用核大小为3x3的两个卷积层来表示挑战感知分支,在第二层和第三层中分别使用核大小为3x3和1x1的卷积核。对于所有的模态共享分支,局部响应归一化(LRN)在卷积层后使用来加速收敛的速度以及提高网络的泛化能力。此外,最大池化操作使得由模态共享分支获得的特征图分辨率和由主干网络响应的卷积层获得的特征图的分辨率相同。细节如图3b所示。
2.1.4 模态特定分支
在协作的所有模态下,使用模态共享分支对一个挑战下的目标外观进行建模。为了考虑到异质性,作者提出特定于模态的分支对每个模态的一个挑战下的目标外观建模。模态特定分支的结构与模态共享分支的结构是一样的,如图3b所示。不同于模态共享分支,模态特定分支在表示目标时,通常包含不同模态的互补优势,以及在如何融合中起着关键作用的性能提高。例如,在光照变化IV中,RGB数据通常比光照数据弱,如果我们利用热源的引导,引进RGB模式下的目标表示,跟踪结果将随着目标特征的增强而得到改善。因此,作者设计一个引导模块来将判别特征从一个模态转移到另一个模态。
引导模块的结构如图3a所示,作者设计该模块是受FiLM的启发,引入 the feature-wise linear modulation ,以便在视觉推理任务中,在条件信息的帮助下,学习更好地特征图。
(FiLM 由带有先验知识和添加条件误差的这样一个具有先验知识的Hadamard来实现的,条件变差起着特征尺度和位移的作用。)
与在FiLM中处理文本和视觉信息不同,视觉任务的目标更简单,并且只需要借助借助另一种模态来提高某些弱形态特征的判别能力。此外,对于一些类似于目标跟踪视觉任务,空间信息是至关重要的准确性定位,因此用两种模态调和的过程中要考虑到这种情况。考虑到这些因素,使用逐点特征转移将判别信息从一个模态转移到另一个模态,引导模块和FiLM模块的差异如图4所示。
作者在引导模块引入一个门机制来抑制特征传播过程中噪声信息的传播,在设计时,1x1的卷积核在非线性激活单元层之后,来学习一个非线性映射,通过元素级sigmoid激活函数实现门机制。如图3a所示。引导模块公式如下:
2.1.5 自适应聚合模块
因为不知道在跟踪过程中每一帧面临什么样的挑战,因此作者设计了一个自适应聚合模块来有效聚合所有分支,并且形成更加鲁棒的目标表示,结构如图3c所示。在设计中,作者使用连接操作而不是加操作来聚合所有分支,来避免在自适应聚合层中,这些分支的差异分散,然后使用核大小为1x1的卷积层提取自适应特征,实现降维。
2.1.6 分层Challenge-Aware 结构
不同挑战下的目标外观可以再不同层中很好地表示出来,如图所示:
例如,在某些情况下,热交叉挑战可以在低层表示出目标外观,遮挡在中层,快速运动在深层。因此,作者将Challenge-Aware分支添加到主干网络的每个卷积层中,从而给出一个分层的Challenge-Aware网络结构。如图2所示。需要注意的是,这些Challenge-aware分支能够以残差信息的形式对特定挑战下的目标外观进行建模,学习目标外观表征时只需要少量的参数。因此,在RGBT跟踪中,面对不同的挑战,当只有很少的训练数据时,不能捕获目标外观变化的问题被解决。
3.2 训练算法
首先考虑到三个训练问题:
- 具有任意属性的训练样本的分类损失将反向传播到所有挑战分支。
- 模态特定分支的训练不应该与模态共享分支的训练相同,因为他们包含额外的引导模块。
- 在训练阶段有标注挑战,但是在测试阶段没有。
综上,因此提出三段训练算法来有效地训练提出的网络。
阶段一: 训练所有的 challenge-aware 分支
在这一阶段,删除所有的引导模块和自适应聚合模块,并且用基于挑选的数据集训练所有的 challenge-aware 分支(包含模态共享和模态特定分支)。确切地说,一开始在VGG-M上预训练的模型来初始化双流CNN主干网络的参数,在这个阶段,这些参数是固定的。challenge-aware和全卷积层参数是随机初始化的,学习率分别设置为0.001和0.0005。采取的优化策略为随机梯度下下降算法,动量设置为0.9,权重衰减设置为0.0005.训练epoch设置为1000.
阶段二: 训练所有的引导模块
第一阶段训练完每个challenge-aware分支后,针对模态特定挑战分支来分别学习引导模块,解决弱模态问题。所有的超参数和阶段1设置相同。
阶段三: 训练所有的自适应聚合模块
在这一阶段,使用所有的挑战和非挑战框来学习自适应聚合模块和分类器,并且微调主干网络的参数。具体地说,固定在强两个阶段预训练的所有挑战分支和在引导模块的参数,自适应聚合模块和全连接的学习率设置为0.0005,主干网络的参数设置为0.0001,。同样采用随机下降算法作为优化策略,epoch的数量设置为1000。
3.3 在线跟踪
在第一帧中收集500个正样本(IOU>0.7)和5000个负样本(IOU<0.3),使用这些样本epoch设置为50,来微调网络中全连接层的参数,来使网络适应新的跟踪序列,其中,fc6的学习率设置为0.001,fc4-5学习率设置为0.0005。另外,提取1000个样本(IOU>0.6)训练边界框回归器。
从第二帧开始,如果跟踪得分大于预先定义的阈值(根据经验设置为0),认为跟踪成功,在这种情况,收集20个正样本(IOU>0.7)和100个负样本(IOU<0.3)用于在线更新来适应跟踪过程中的目标外观变化。长期更新每10帧执行一次,fc6学习率设置为0.003,fc4-5设置为0.0015,epoch的数量设置为15。当当前帧跟踪失败时,执行短期更新,参数的设置和长期更新相同。
当跟踪到第t帧时,256个候选区域通过第t-1帧的跟踪结果,采用高斯分布进行裁剪,然后使用训练网络来计算这些候选区域的得分,把根据得分将其分成正样本和负样本。正向样本中得分最高的候候选框作为第t帧的跟踪结果。此外,边界框回归方法被用于微调跟踪结果,使得目标定位更准确。
t局响应归一化:
1.Qi, Y., Zhang, S., Zhang, W., Su, L., Huang, Q., Yang, M.H.: Learning attribute-
specific representations for visual tracking. In: Proceedings of the AAAI Conference
on Artificial Intelligence (2019
2. Li, C., Wu, X., Zhao, N., Cao, X., Tang, J.: Fusing two-stream convolutional neural
networks for rgb-t object tracking. Neurocomputing 281, 78–85 (2018)
提出一种双流CNN和融合子网络分别提取不同模式的特征并进行自适应融合。
3.Zhu, Y., Li, C., Luo, B., Tang, J., Wang, X.: Dense feature aggregation and prun-
ing for rgbt tracking. In: Proceedings of the ACM International Conference on
Multimedia (2019)
为了更好地融合RGB和热数据的特征,提出该网络,将多层和所有模式的特征聚合起来,然后对这些特征进行裁剪,以减少噪声和冗余。
4.Gao, Y., Li, C., Zhu, Y., Tang, J., He, T., Wang, F.: Deep adaptive fusion network
for high performance rgbt tracking. In: Proceedings of the IEEE International
Conference on Computer Vision Workshops (2019)
5.Zhang, L., Danelljan, M., Gonzalez-Garcia, A., van de Weijer, J., Shahbaz Khan,
F.: Multi-modal fusion for end-to-end rgb-t tracking. In: Proceedings of the IEEE
International Conference on Computer Vision Workshops (2019)
在端到端的深度学习框架中使用了不同层次的融合ece
在融合中加入注意力机制来抑制模态的噪声。