in Advances in Neural Information Processing Systems(NIPS) 2018
摘要:
对于视觉跟踪而言,跟踪发生较大外观变化的目标对象通常是一项挑战。注意力图通过有选择地关注时间上的鲁棒特征来促进视觉跟踪。现有的检测跟踪方法主要使用额外的注意模块来生成特征权重,因为分类器没有这种机制。在本文中,提出一种交互学习算法,利用视觉注意力来训练深度分类器。提出的算法包括前向和后项操作来生成注意力图,作为正则化项与原始分类损失函数相结合进行训练。深度分类器学习关注对外观变化具有鲁棒性的目标对象区域。大规模基准数据集上的大量实验表明,所提出的注意力跟踪方法与现有的方法相比具有良好的性能。
1.引言
现有的深度注意力跟踪器,主要是通过使用附加注意模块生成特征权重。换句话说,注意力方案主要通过特征选择来实现的。得益于端到端的训练,这些注意方案主要通过增强特征的辨别能力来提高跟踪精度。然而,在单个帧中学习的特征权值,不太可能使分类器在较长时间内专注于鲁棒特征。此外,特征权值的轻微不准确会加剧错误分类问题。因此,需要深入研究如何最好地利用深度分类器的视觉注意力,以便能够随着时间的推移关注目标对象。
本文中,提出了一种利用视觉注意的交互学习算法,它改进了检测跟踪框架。与现有的跟踪器使用额外的注意力衡量特征不同,本文直接训练一个注意力分类器。训练过程包含前向和返向传播两步,在前向步骤中,将输入样本送入深度跟踪检测网络,并计算出相应的分类分数;在返向传播过程中,针对输入样本沿着从最后一个全连接层到第一个卷积层的方向,采用分类分数的偏导数。需要注意的是,在反向过程中,不需要更新任何网络参数,相反地,采用第一层的偏导数作为注意力图。此注意图上的每个像素值指示输入样本的对应像素对影响分类精度的重要性。利用此注意力图作为正则化项,并在训练期间加入损失函数中。网络参数按照传统的反向传播更新进行更新。最终,深度分类器学会关注目标区域,并且有效地消除 背景干扰。在测试阶段,深度分类器直接预测每个输入样本的分类分数,用于目标定位。
本文的主要贡献:
(1)提出一个交互学习算法,利视觉注意机制用于跟踪检测框架。
(2)使用注意力图作为正则化项,和分类损失函数一起来训练深度分类器,使其学会随着时间关注鲁棒特征。
2.提出的方法
网络结构:
2.1 注意力的利用
用I表示检测网络对CNN跟踪的输入。网络输出分数向量,每个元素分数表示I属于预定义类别c的可能性。给定一个特定的输入样本,我们在点
处使用一阶泰勒展开来近似分数函数
:
点属于输入
删除的邻域
,公式1适用于在
的任何点。因此,当点
和
无线节点时,在点
和
处的
的偏导数是相等的。
。在公式1中,
是对于输入样本I,在样本
处的
的偏导数:
公式1表示类别c的的输出分数是与的值相关的。换句话说,
的值表示
相应像素的重要性,以生成相应的分类分数。因此,将
作为注意力图,对于另一个特定输入样本
,再次在点
处使用泰勒展开来近似
,点
属于
的邻域
。新的近似值适用于在
中的任何一个点。因此,对应于每个输入图像的样本的注意图
是确定的。
根据公式2,计算网络输出关于输入样本在特定样本
处的偏导数。 这是通过两步来实现的。首先,将输入样本
送入网络,并且在前向传播中获得预测分数
,然后,当
时,计算对于
对于I 的偏导数。根据链式法则,该偏导数通过反向传播计算,将偏导数的第一层输出作为注意图
,只选择具有正值的梯度,因为正值对类分数具有较明显的贡献。因此,注意力图
始终为正值,并反映网络如何输入样本
。注意,在反向传播过程中,网络参数是固定的,不再更新。(为什么呢)
3.2注意力正则化项
跟踪检测网络中,通常定义目标物体作为正类,背景作为负类来训练一个二分类器。对于每个输入样本,首先获得两个特征图,一个正向注意力图(denoted by Ap),一个负向注意力图(denoted by An),对于一个正训练样本,标签记为y=1,本文期望与目标物体相关的Ap的每个像素值尽可能大,An的像素值尽可能地小。正负样本的正则化项分别做如下设置:
分别代表注意力图的均值和标准差。
对于公式3和公式4,在原始的损失函数中,添加注意力正则化项,构成最终的损失函数。
参数平衡正则化项和交叉熵损失。
等式5展示了注意力图如何有助于训练深度分类器的。除了分类损失之外,还加入了来自注意力图的约束。对于正样本, 本文目标是在两方面增加对目标对象的关注,第一种方法是增加Ap平均值,但减少Ap的标准差,即像素值大但是方差小。另一方面是减少An平均值,但是增大An的标准差。这两个方面反应了分类器学习真阳性率(TPR),降低假阴性率(FNR)(识别对的正样本损失小,识别错的正样本损失大。因此可以提高TPR,降低FNR)
最终,正则化项通过使用来自特征图的值加以限制,有助于增加分类的准确度。因为在分类器训练过程中,如公式1所示,注意力图显著影响输出的类分数。
3.3 交互学习
使用标准的反向传播和链式法则。在分类器训练的每次迭代中,计算每个输入的训练样本的注意力图,这些注意力图反映了当前状态下分类图的注意,理想情况下,分类器将选择性地关注目标而不是背景。如图2(b)所示:不使用正则化的分类器将会关注有限部分的判别区域。当目标对象外观变化较大时,这些有限的区域不可能在整个视频中可靠地表示目标对象。通过使用注意力正则项,分类器迭代学习关注能够区分背景和目标对象的每个区域。分类器将逐渐将注意力集中在每个目标区域。如图2(c)所示,在训练的一开始,注意力图仅覆盖目标区域的一个子部分。通过交互学习,注意力图逐渐覆盖整个区域。在测试阶段,不适用正则化项,分类器本身能够关注输入样本。
4.跟踪过程
4.1 模型初始化
在第一帧中,在初始目标位置随机画出N1个样本,根据和真值目标框进行IOU,设置正样本和负样本(以0.5为界)。在初始化中使用H1次迭代,对于每次迭代中每个样本,使用公式5计算损失并相应地更新全连接层。
4.2 在线检测
在视频序列中,给定一帧,首先围绕上一帧的预测值位置画出N2个样本,然后将每个样本送入网络,选择分类得分最高的作为候选对象,并使用边界框回归作为目标位置。
4.3 模型更新
在每一帧中,首先 根据上一帧目标物体的位置画出N2个样本,根据和上一帧中预测出的目标物体做IOU,设定其为正样本还是负样本。然后,使用这些样本在每个帧中使用H2次迭代更新全连接层。
通过可视化attention map, confidence map and the tracking results分析交互学习如何在跟踪检测框架中起作用的。注意图显示网络是如何关注输入图像的;在confidence map上的分数表示成为目标对象的概率。如图所示:
在视频序列的一开始, the attention map, confidence map and the tracking results 在有和没有交互学习的情况下,跟踪结果都相同。这意味着它没有完全识别目标区域。然而,在跟踪过程中,交互学习有助于注意力图覆盖整幅区域,从而可以增强实例感知。从而网络可以在目标区域生成一个较高的置信度图。这有助于分类器在遮挡期间将目标与背景分离开。相比之下,没有交互学习方案的基线在存在遮挡时会出现漂移,因为分类器不考虑时间鲁棒性特征。
5.实验
实现细节:
在第一帧中,设置N1=5500,使用H1=50次迭代对随机初始化分类器进行训练,学习率设置为2e-4。在每次迭代中,将包含32个正样本和32个负样本组成的mini-batch送入网络。在在线模型更新步骤中,每10帧使用H2 = 15次迭代对分类器进行微调,学习率设为3e-4。网络求解器使用随机梯度下降算法(SGD)。在线检测期间,Proposal的数量设置为N2=256。
6.结论:
本文中,提出一种交互学习方案,在跟踪检测框架中利用视觉注意。对于每一个输入样本,首先计算前向传播中的分类损失,在后向传播中将关于该样本的偏导数作为注意力图。然后使用注意力图的正则项和原始的分类损失函数一起用于训练判别性分类器。与现有的注意力模型提出了额外的模块来生成特征权重相比,本文提出的交互学习算法使用注意图来正则化分类器学习。本文的分类器学习在很长的时间跨度内处理鲁棒的特征。在测试阶段,不会生成注意力图。分类器直接对每个输入样本进行分类。