ICCV 2017 Tracking The Untrackable:Learning to Track Multiple Cues with Long-Term Dependencies 阅读笔记

最新推荐文章于 2022-09-12 11:40:57 发布

哈哈哈哈嘿嘿嘿

最新推荐文章于 2022-09-12 11:40:57 发布

阅读量2.5k

点赞数 1

分类专栏：【视觉目标跟踪】

本文链接：https://blog.csdn.net/yuhq3/article/details/79161995

版权

【视觉目标跟踪】专栏收录该内容

24 篇文章 20 订阅

订阅专栏

论文网址：https://arxiv.org/abs/1701.01909

预备知识

RNN

CNN

LSTM

MDP：ICCV 2015 Learning to Track: Online Multi-Object Tracking by Decision Making 阅读笔记

摘要

本文提出一种对长时间存在的多线索依赖关系进行编码的在线方法。其中，为了解决在跟踪方法中不能很好地对发生遮挡或具有相似外观环绕的目标进行区分跟踪的问题，本文提出使用RNN架构，结合了一定时间窗内的多线索，来进行跟踪这一方法。通过该方法，我们可以修正数据关联的错误，以及从被遮挡状态中恢复原目标观测。本文证明了通过使用目标的外观、运动、以及交互这三个方面来进行数据驱动的跟踪算法是十分鲁棒的。

整体架构

使用"tracking-by-detection"的方法进行多目标跟踪，将跟踪分为两步，第一步是检测每一帧的目标，第二步是将每一帧的检测目标关联形成一个轨迹集。其中，第一步是通过将每一帧图像作为输入传给目标检测器得到的检测结果。对于新的一帧而言，跟踪器需要计算当前帧中的目标和已存在的轨迹之间的相似度，如Fig.2所示，然后在由当前目标检测与已存在轨迹形成的二分图中，利用匈牙利算法找到最优匹配结果。
而本文的工作就是使用新的方法来计算两者的相似度，通过在外观、运动、交互三个模型上使用RNN求得目标特征，然后连接三者特征再次使用RNN可以求得相似度。需要注意的是，对于已存在的轨迹而言，不只是单独对上一帧轨迹中的目标求特征，而是对一定帧数内的目标序列联合求特征，即摘要中提到的“时间窗”。

外观模型

外观模型主要用于解决重识别问题，同时还要能够处理遮挡和其他视觉问题。
外观模型是一个基于CNN和LSTM结构的RNN，首先将不同帧数的轨迹目标图像传入CNN，得到500维的特征向量，然后将序列所有特征向量传入LSTM得到H维特征向量，接着将当前目标检测也传入CNN得到H维特征向量，连接两H维特征向量并传入FC层得到k维判别外观的特征向量。
在训练时使用Softmax分类器对0/1分类问题进行预训练，判断当前目标检测是否属于某轨迹；When combining with other cues, we use φA of size 500 as part of the input to our target RNN (O).（这里存在疑问：前文说φA维数是k，这里说是500，后文提到参数k实际设为100，所以这个500是否只是指在预训练时的参数？）；使用16层的VGGNet作为该模型的CNN，We begin with the pre-trained weights of this network, remove the last FC layer and add an FC layer of size 500 so that the network now outputs a 500-dimensional vector.（这里应该是证实了上面的疑问猜想，在预训练时先移除原先FC层，而用500大小的FC层来代替）。

运动模型

运动模型主要用于判断目标是否被遮挡或产生其他状况，其主要面临问题在于在遇到干扰的目标检测时会有不好的结果，因此本文使用LSTM来处理这类问题。
除了CNN外，运动模型和外观模型的结构类似，唯有输入从图像变成了运动向量，该向量主要包括x,y两个方向的速率变化，其余输出的维度以及预训练的操作都保持不变。

交互模型

交互模型主要用于处理目标与其周围事物的作用力关系。由于目标附近的其他目标数量是会发生变化的，为了使网络模型使用相同的输入大小，本文将每个目标的周围都建模成固定的"占有块"。
和运动模型的结构相同，只有输入变成了"占有块图"，其余皆不变。

目标模型

第一，以上三个模型都会先独立进行预训练，使用标准Softmax classifier和cross-entropy loss，每个RNN输出正或负的概率，其中正表示新目标检测在三个方面都和之前的目标轨迹匹配，否则则是反。
第二，目标RNN的输入是以上三个模型输出出来的特征向量的连接，最后目标RNN的隐藏状态（H维向量）将经过一个全连接层，生成一个编码了所有线索的长时间依赖关系的特征向量φ(t,d)。同时，目标RNN还训练用来进行数据关联——使用Softmax classifier和cross-entropy loss来输出检测d与目标t之间的匹配分数。

实验结果与分析

"To recall, we use our learned representation in the MDP framework. We have one target LSTM for each target, and the MDP framework tracks the targets using the similarity computed with our learned representation."

对于每个目标，MDP有两个进程：第一，它采用基于光流法的单目标跟踪子对目标独立跟踪；第二，当目标发生遮挡时，单目标跟粽子停止跟踪，然后建立一个类似Fig.2的二分图，使用匈牙利算法回复被遮挡的目标。需要注意的是，MDP也会根据给定的表示方式学习到一个相似性分数，而本文将这个表示方法替换成了目标RNN的输出（φ(t,d)），去证实我们学习方法的作用。

设参数H=128，k=100，序列长度=6，交互模型中的输入图像被均匀分成15*15的网格，其中每个目标周围有7*7的子网格被当作是"占有块"。其他RNN的参数具体参考论文。
使用多线索长时间依赖关系可以使被遮挡或漂移了的目标恢复到正常，因此MT更高，ML更低，然而IDS却也更高。实际上，当目标被遮挡时，我们的算法可能会将它们错误地分配到其他检测上，但是当目标重新出现时，我们的算法会重新将它们匹配到正确的检测上，这就导致了IDS的增高。

与其他多目标跟踪算法相比，本文算法优点之一在于相似性得分上，它是一个能在过去帧中结合多个线索并在每帧使用最正确的线索来度量的函数。这样设计的原因在于经常存在这种情况：某些线索好用而其他线索存在噪声干扰或不够有区分度。
例如Fig.9斯坦福无人机数据库的跟踪结果，所有的目标都比较小，因此用外观模型来判别就会产生错误。

Ablation Study

目的在于解决两个问题：一，高效地对每个线索建模；二，高效地结合所有线索。

由上一小节可知斯坦福无人机数据库目标较小，也因此不会产生较长的遮挡问题，所以只需要较短的序列长度。而且随着序列长度的增加，MOTA也会逐渐达到饱和，这和遮挡时间长短有关，一般序列长度与最长遮挡帧数相等时，效果最好。

为了验证RNN的重要性，使用全连接层分别代替目标RNN和所有的RNN进行测试，结果如Table.2。

测试不同成分对实验结果的影响。
"Our proposed target LSTM (in charge of combining all the other RNNs) effectively reason on all the cues to increase the performance."