Dense Feature Aggregation and Pruning for RGBT Tracking
the 27th ACM International Conference
2019/10/15
Y Zhu,C Li,B Luo,J Tang,X Wang
目录
1.摘要
对不同模态进行有效信息融合是提升RGBT跟踪性能的核心因素。本文提出一种基于端到端训练卷积网络表示的深度融合算法。为了部署所有层特征的互补性,提出了一种递归策略来密集地聚集这些特征,从而在每个模态中产生目标对象的健壮表示。在不同的模态中,提出以协作方式修剪所有模态的密集聚集特征。具体而言,利用全局平均池化以及加权随机选择来进行信道评分以及选择。这可以去除冗余和噪声特征从而实现更鲁棒的特征表示。
关键词:RGBT跟踪、密集聚合、递归融合、特征剪枝。
2.引言
本文提出一种新的方法,DAPNet。浅层特征可以对目标外观和空间细节进行编码,从而有利于实现精确的目标定位,而深层特征更能有效地捕捉目标语义,从而有效地识别目标类别。一些现有的工作通常采用特定的特征层进行稀疏特征聚合,来提高跟踪性能。为了充分利用深层特征,本文方法以密集方式递归聚合所有层的特征。DAPNet充分利用了由浅入深的空间和语义特征,实现了更精确的跟踪结果,此外,还压缩了特征通道以减少冗余,并使用最大池化操作将不同尺度的特征图转化为相同的大小。为了减少网络参数和捕获不同模态的共同特性,使RGB和热红外共享相同的参数。
聚集的RGBT特征是有噪声和冗余的,因为他们中的一些在定位某个目标时是无用的,甚至是干扰的。也就是说,只有少数卷积滤波器是有效的,并且,并且大部分卷积滤波器在描述某个目标时包含冗余和不相关的信息,这导致过度拟合。为了解决这些问题,本文提出了一种协作特征剪枝方法来去除噪声和冗余特征图,以实现更鲁棒的跟踪。现有的工作利用了基于重建的方法,该方法试图通过最小化被修剪的模型和预先训练的模型之间的特征图的重建误差来进行通道修剪。然而,这些方法通过最小化特征图的重建误差来错误地保留实际的冗余通道。本文应用通道剪枝的思想来解决这一问题,并通过简单的操作对其进行改进。
具体来说,特征剪枝模块之后是特征特征聚合模块,但不增加网络参数数量,仅部署在训练阶段,计算成本较低。特征剪枝模块由有两个步骤组成,即通道评分和通道选择,通过全局平均池化和加权随机选择实现。通过这种特征剪枝方法,选择在每次迭代训练中激活这些特征通道,从而得到更鲁棒的卷积特征表示。一旦训练完成,聚合的网络参数被固定,并且在在线跟踪期间特征修剪被移除。
本文主要贡献:
1.提出了一种新颖的端到端的训练深度网络,用于精确的RGBT跟踪。通过部署所有增强的深度特征,该跟踪器可以应对由部分遮挡、变形和不利环境条件等导致的显著外观变化的挑战。
2.本文提出了一个密集的特征聚合模块,将所有层的特征递归地集成到同一个特征空间中。
3.为了进一步消除密集特征聚合后噪声特征的影响,设计了一个特征剪枝模块,以获得更鲁棒的特征表示和更好的跟踪性能。
3.方法介绍
3.1网络结构
提出的结构包含一个全卷积密集特征聚合模块、特征剪枝模块和三个用于二分类的全连接层。与MDNet类似,选择VGG-M作为主干网络。这里,两种模态采用相同的主干网络并共享参数。和原始的MDNet不同的是,第二层卷积后去掉了最大池化层,采用空洞率为3的卷积空洞卷积用于提取空间分辨率更高的密集特征图。然后,通过特征聚合模块集成了两个模态的所有特征。为了减少特征噪声干预,集成特征由特征剪枝模块来选择。最后,通过三个全连接层和soft-max交叉熵损失对优化特征进行分类。
3.2密集特征聚合
密集特征聚合模块是一种特征融合策略,目的是通过并行分层结构加强全卷积架构。它的任务是更好地处理原始网络的特征并将其传播到分类器。聚集块(密集特征聚合模块的主要构建块)学习组合多个卷积层的输出,从浅层到深层提取所有的空间和语义信息。将特征聚合模块实现为一个并行特征处理分支,可以插入到任何CNN架构中。特征的聚合由聚合块的堆叠序列组成,每个聚合块迭代地组合来自主干和前一聚合模块的输出。当聚合块的输入具有不同规模时,使用最大池化操作来保持他们的大小一致。提出的聚合块实现为一个1x1的卷积,RELU函数、归一化操作。如图所示。该结构可以与任何现有的预处理模型相结合,而不会破坏原始特征的传播。为了充分融合不同模态的特征,RGB和热模态网络的输出都连接到聚合模块。为了将两种模态的特征映射到相同的特征空间,选择相同的骨干网络并共享参数,密集特征聚合模块从浅到深聚合两种模态的空间信息和语义信息,并对特征通道进行压缩,从而获得更丰富有效的特征表示。B表示为特征聚合操作:
σ是非线性激活函数(RELU),w和b分别代表权重和偏置。LRN代表局部响应归一化函数,x代表聚合块的输入。
3.3特征剪枝
为了消除密集特征聚合引入的噪声和冗余信息,受论文1 的启发,提出特征剪枝的机制,但两者的剪枝的动机不同,论文1 是一种避免过拟合的丢弃技术,而本文的目标是除了避免网络训练的过拟合之外,还修剪掉冗余和噪声特征,并将最区别性的特征保留到某个目标,以实现更有效的定位。通过这种方式,增强了对有效特征表示的学习,并且抑制了无用特征,具体来说,在两个相邻的卷积层之间使用通道丢失,并且使用全局平均池化(GAP)、加权随机选择(WRS)和随机数生成(RNG)的操作来选择一些通道以实现正则化。而本文特征剪枝会选择一些对目标定位影响较大的渠道。如果直接使用论文1 中的方法来实现本文的目标,由于本文网络的密集聚合结构,将会使网络难以优化。此外,RNG操作会增加特征选择的随机性,因此本文将RNG操作忽略。
论文中显示:利用GAP代替全连接层可以解决卷积网络中的过拟合和全连接层参数过多的问题,采用GAP可以使卷积神经网络具有优良的定位能力。本文利用GAP获取各特征通道的激活状态:
式子(2)W,H代表特征图的宽高,xc代表特征图的第c通道。
本篇论文中,不直接使用score来进行通道选择,采用加权随机选择(WRS)。每个通道都有一个score c,一个随机数,计算为:式子(3)。选择值最大的前M项,M = N x wrs_ratio,N是通道数量,wrs_ratio是一参数,表示WRS以后,多少通道被选择。
(疑问1:wrs_ratio是随机的还是确定的数?
回答:从下面的算法流程中可以看出,wrs_ratio应该是事先给出的)
3.4网络训练
使用VGG-M网络的预训练模型初始化前三个卷积层参数,全连接层是随机初始化的。通过随机梯度下降(SGD)算法训练整个网络,在每次迭代中专门处理每个域,每次迭代中,从每个视频序列中随机选择8帧构建mini-batch.每帧中选出32个正样本和96个负样本,在一个mini-batch中,选出256个正样本和768个负样本。IOU大于0.7被认为是正样本,IOU小于0.5被认为是负样本。在具有K个训练序列的多域学习中,采用softmax交叉熵损失对网络进行100次迭代训练。
实验1:使用从RGBT234中选出的77个视频序列进行训练,用GTOT50数据集进行测试。
实验2:用GTOT50数据集进行训练,用RGBT234进行测试。
3.5跟踪细节
在跟踪中,对于每个测试序列,域特定层的K个分支(最后一个fc)被替换为单个分支,此外,特征修剪模块被移除,在跟踪过程和在线微调期间,固定卷积滤波器w1,w2,w3,并微调全连接层w4,w5,w6,因为卷积层将有通用的跟踪信息,而全连接层有视频特定信息。给定第一帧对与目标对象的真值,画出500个正样本(IOU>0.7),5000个负样本(IOU<0.5),用10次迭代来训练新的分支。给定第t帧,根据第t-1帧的跟踪结果,画出符合高斯分布的一系列候选框。高斯函数的均值设置为,协方差设置为对角矩阵,(a,b)和s分别代表位置和尺度,r代表的均值,对于每一个候选框,使用训练好的网络计算出其正得分和负得分,当前帧的目标位置取正得分最大的候选框。
同样,本文也使用了目标框回归技术来提高目标位置的准确性。目标回归只在第一帧中对其进行训练,以避免其他镇的不可靠性。如果估计的目标状态足够可靠,,则使用边界框回归技术对目标位置进行调整。
4实验
1.与RGB跟踪器相比,证明引入T模态的有效性
2.与RGBT跟踪器相比,证明方法的有效性
3.消融实验
论文1:Hou Saihui and Wang Zilei. 2019. Weighted Channel Dropout for Regulariza-
tion of Deep Convolutional Neural Network. In AAAI Conference on Artificial
Intelligence