多目标追踪按照轨迹生成的顺序可以分为离线的多目标追踪和在线的多目标追踪
离线的多目标追踪通常构造为图模型,设计和计算检测之间的相似度或者距离是决定图模型构造正确性的关键。在线的多目标是根据当前的检测观测,计算与已有轨迹的匹配关系。无论是离线还是在线,学习检测的特征并计算匹配相似度或者距离度量都是多目标跟踪算法的关键。基于深度学习的多目标追踪算法主要任务是优化检测之间相似性和距离度量的设计,根据学习特征的不同,基于深度学习的多目标追踪可以分为基于
基于深度表征学习的多目标跟踪,
基于深度相似性度量学习的多目标追踪
基于深度高阶特征匹配的多目标追踪
深度相似性度量:学习检测之间的特征相似性,比如设计深度网络计算不同检测集距离度量函数,相同目标的检测距离小,不同目标的检测距离大,从而构造检测距离的度量函数也可以设计二类分类代价,使相同目标的检测特征匹配类型为1,而不同目标的检测类型为0,从而输出0,1之间的检测匹配度。
深度高阶特征匹配:如果考虑已有轨迹与检测之间的匹配或者轨迹之间的匹配,采用深度学习的方法可以设计用来并计算轨迹之间的匹配相似度,这种方法可以认为是基于深度学习的高阶特征匹配的方法。采用深度学习计算高阶特征匹配可以学习多帧表现特征的高阶匹配相似性,也可以学习运用特征的匹配相关性。
基于Siamese对称网络的多目标追踪算法
Siamese对称网络是一种检测匹配对量学习方法,用两个尺寸相同的检测图像块作为输入,输出为两个图像块是否属于同一个目标的判别。学习过程采用经典的带有动量的随机梯度反向传播算法,minibatch大小的选择为128,学习率为0.01,Siamese网络学习完成之后,作者采永第六层全连接网络的输出作为表现特征,为了融合运动信息,又设计了6维运动的上下文特征,尺寸相对变化,位置相对变化,以及速度相对变化。
基于全连接孪生siamese-fc网路的目标追踪
Siamese-fc与之前提到的siamese cnn都采用了孪生结构,算法本身是比价搜索区域与目标模板的相似度,最后得到搜索区域的score map,从原理上来说,这种方法和相关性滤波的方法很相似,都在搜索区域里面与目标模板进行逐点匹配,siamese-fc算法将这种逐点平移匹配计算相似度的方法看成一种卷积操作了,然后在卷积结果中找到相似度最大的点,作为新的目标的中心。
MDnet的改进网络
MDNet是一种存深度的目标跟踪算法,训练时首先在每个视频中根据目标的位置使用高斯分布,均匀分布和随机分布结合的方式取样取得ROI框,提取对应图像patch,然后输入网路的最后一层,利用softmax输出目标和背景的概率,然后根据groundtruth计算loss反传,训练时仅最后一层fc根据不同类的视频而不同,而仅有前面的层共享参数,目的是学习更鲁棒的特征,检测的时候去掉最后一层,用新的fc层使用第一帧的信息finetune,MDNet缺点就是太慢,fps-40
real-time MDNet的贡献是:
1,受mask-rcnn的启发,提出一种自适应的ROIAlign
2,对损失函数进行改进,引入了一个内嵌实例的loss
自适应的ROIAlign:
如果把MDNet比作tracking版的R-CNN,那么RT-MDNet就可以近似的认为是tracking版的Mask R-CNN。
原始的MDNet像R-CNN一样,是先产生proposal,然后用proposal在原图上抠图提特征,这就会像R-CNN一样在提特征时产生很多冗余的部分,很自然的,可以像Faster那样,先提原图的特征,然后在featuremap上去找RoI,这样可以大大加快速度。但是普通的RoI
Pooling会在两次量化的过程中积累很多误差,这些误差再积累到tracking的时序上,最后很可能会让模型漂掉。所以自然的又想到了用RoI
Pooling的改进版,RoIAlign。然而,当RoIAlign中的采样点间隔太大,会损失掉featuremap上一些有用的信息。比如,一个feature map
grid上是5×5的点,但是RoIAlign在每个grid上只采2×2共4个点,这必然会导致featuremap上的信息被丢失。所以作者根据feature
map grid的size自适应的调整网格里samplepoints的数量,来减少信息的损失。这就是自适应的ROIAlign。对损失函数的改进:
对Loss的改进如图4所示,引入了内嵌实例的loss,使不同域的目标在特征空间的距离相互更远,这样能学到更有判别力的特征。MDNet仅仅是在每一个域中区分目标和背景,而当目标们有相似的外观时就不能有效判别不同域中的目标,所以作者loss中嵌入了其他视频中的目标来使相互之间更有判别力。这里是引用
基于时空域关注模型的多目标跟踪算法
除了解决目标重识别问题的深度网络架构检测匹配特征,还可以根据多目标跟踪场景发的特点,设计合适的深度网路模型来学习检测匹配特征,chu等人对行人多目标跟踪问题中跟踪算法发生漂移进行统计分析,发现不同行人发生交互是,互相遮挡是根据跟踪算法产生偏移的重要原因,针对这个问题,提出了时空域关注模型来学习遮挡情况,并判别出可能出现的干扰目标,空间关注墨香用于遮挡发生时的特征权重,对候选框特征加权之后,用过分类器进行选择,得到估计额目标跟踪的结果,时间关注模型加权历史样本和当前样本,从而得到甲醛的损失函数,用于在线更新模型。每个目标独立管理更新自己的时空域关注模型,并选择候选检测进行跟踪,因此本质上,这种方法是对单目标跟踪算法子啊多目标跟踪汇总扩展。为了区分不同的目标,关键的步骤是如何对遮挡状态下进行建模和区分接近的不同目标
空间注意模型用于每个时刻的遮挡状态进行分析,时间关注模型
基于LSTM判别融合表现的多目标的追踪算法
前面介绍的几个算法采用的是深度网络模型都是基于卷积网络结构,由于目标跟踪是通过历史轨迹信息来判断新的目标状态,因此设计能够记忆历史信息并根据历史信息来学习匹配相似性的网络结构,也是比较可行的算法框架。
首先,轨迹目标与检测的匹配需要用到三种特征(表观特征、运动特征、交互特征)(左);然后,采用分层的LSTM模型(中)来实现三种特征的融合;最后,通过相似度的二部图匹配算法实现最终的匹配结果(右)。
总结
目前的基于深度学习的多目标跟踪框架在以下的两个方向都取得的较好的进展
1)结合多目标跟踪场景对网络进行悠哈,这种考虑跟踪场景的网络设计对于跟踪结果有明显的提升效果
2)采用循环神经网络,利用历史信息来表达跟踪中的轨迹特征,这是跟踪问题的有一二重要的研究方向