计算机视觉-论文阅读笔记-基于高性能检测器与表观特征的多目标跟踪

最新推荐文章于 2024-06-09 18:44:03 发布

Will-Lin

最新推荐文章于 2024-06-09 18:44:03 发布

阅读量7.1k

点赞数 3

分类专栏：计算机视觉文章标签：计算机视觉跟踪

本文链接：https://blog.csdn.net/wzmsltw/article/details/53691384

版权

本文详细介绍了ECCV2016论文POI，该算法结合高性能的Faster RCNN行人检测器和深度学习的表观特征进行多目标跟踪。通过在多个数据集上训练检测器和表观特征模型，实现了优秀的跟踪效果。在线跟踪器采用卡尔曼滤波器和Kuhn-Munkres算法处理数据对应，离线跟踪器则基于H2T算法的改进。讨论了如何通过调整检测器和表观特征来优化实时性。

摘要由CSDN通过智能技术生成

这篇笔记主要是对今年ECCV2016上的论文:POI:Multiple Object Tracking with High Performance Detection and Appearance Feature 进行整理. 这篇文章的基本思路是在每帧上用检测器检测行人位置,在每帧之前利用行人检测框的表观特征(Appearance Feature)进行前后帧行人框的匹配,从而实现对行人的跟踪.所以这篇文章的算法算是Tracking by Detection.这篇文章在行人检测器和表观特征提取两处均使用了基于深度学习的方法.并达到了较好的效果.作者给这个跟踪算法起了个叫POI:Person of Interest.

行人检测

一个准确的行人检测器对于跟踪有很大的帮助.POI中使用检测器信息如下:
* 模型:Faster RCNN
* 数据库:使用了多个数据库.包括ImageNet, ETHZ pedestrain dataset, Caltech pedestrain dataset 以及作者自己准备的数据集(接近40w个样本,但并没有公开).
* 策略:作者额外使用了skip pooling [参考文献1]和multi-region[参考文献2]这两个策略提高检测器的效果.

作者在MOT16 train set上对比了Faster RCNN 和 DPM的效果对比.其中添加了skip pooling和multi-region两个策略的Faster RCNN获得了最好的综合效果,如下图所示.

表观特征(Appearance Feature)

表观特征是用来计算行人图像框之间的相似度的.在用理想的表观特征计算时,来自相同个体的图像框的相似度应该很大,而来自不同个体的图像框的相似度应该很小.从而能够通过相似度确定图像框集合之间的对应关系.
* 模型:GoolgeNet的修改版本,输入尺寸为96 * 96,pool5的kernel size从7 * 7换成了3 * 3
* 训练数据:多个person re-id datasets:包括PRW,Market-1501,VIPeR,CUHK03. 包括来自19835个个体的119000对左右patches.
* 训练方法:同时使用softmax和triplet loss. softmax loss用来提高表观特征的区分度, triplet loss 用来保证同个个体的表观特征距离较小
* 相似度计算: 通过特征的余弦距离计算相似度, 余弦距离即计算两个向量夹角的余弦值.完全相关时为1,完全无关时为0

在线跟踪器(Online Tracker)

Online Tracker Algorithm

以上即为POI中在线跟踪器的算法,其中输入和输出为:
* 输入信息:t时刻的图像帧,t时刻图像帧上的检测框集合 $D^t$ ,以及t-1时刻的跟踪框集合 $T^{t-1}$
* 输出信息:t时刻的跟踪框集合 $T^t$
在Online Tracker中, POI使用Kalman Filter [参考文献3]做动作预测, Kuhn-Munkres 算法[参考文献4]做数据对应(即两个行人框集合之间的对应)