计算机视觉-论文阅读笔记-基于高性能检测器与表观特征的多目标跟踪

本文详细介绍了ECCV2016论文POI,该算法结合高性能的Faster RCNN行人检测器和深度学习的表观特征进行多目标跟踪。通过在多个数据集上训练检测器和表观特征模型,实现了优秀的跟踪效果。在线跟踪器采用卡尔曼滤波器和Kuhn-Munkres算法处理数据对应,离线跟踪器则基于H2T算法的改进。讨论了如何通过调整检测器和表观特征来优化实时性。
摘要由CSDN通过智能技术生成

这篇笔记主要是对今年ECCV2016上的论文:POI:Multiple Object Tracking with High Performance Detection and Appearance Feature 进行整理. 这篇文章的基本思路是在每帧上用检测器检测行人位置,在每帧之前利用行人检测框的表观特征(Appearance Feature)进行前后帧行人框的匹配,从而实现对行人的跟踪.所以这篇文章的算法算是Tracking by Detection.这篇文章在行人检测器和表观特征提取两处均使用了基于深度学习的方法.并达到了较好的效果.作者给这个跟踪算法起了个叫POI:Person of Interest.

行人检测

一个准确的行人检测器对于跟踪有很大的帮助.POI中使用检测器信息如下:
* 模型:Faster RCNN
* 数据库:使用了多个数据库.包括ImageNet, ETHZ pedestrain dataset, Caltech pedestrain dataset 以及作者自己准备的数据集(接近40w个样本,但并没有公开).
* 策略:作者额外使用了skip pooling [参考文献1]和multi-region[参考文献2]这两个策略提高检测器的效果.

作者在MOT16 train set上对比了Faster RCNN 和 DPM的效果对比.其中添加了skip pooling和multi-region两个策略的Faster RCNN获得了最好的综合效果,如下图所示.

POI1.png

表观特征(Appearance Feature)

表观特征是用来计算行人图像框之间的相似度的.在用理想的表观特征计算时,来自相同个体的图像框的相似度应该很大,而来自不同个体的图像框的相似度应该很小.从而能够通过相似度确定图像框集合之间的对应关系.
* 模型:GoolgeNet的修改版本,输入尺寸为96 * 96,pool5的kernel size从7 * 7换成了3 * 3
* 训练数据:多个person re-id datasets:包括PRW,Market-1501,VIPeR,CUHK03. 包括来自19835个个体的119000对左右patches.
* 训练方法:同时使用softmax和triplet loss. softmax loss用来提高表观特征的区分度, triplet loss 用来保证同个个体的表观特征距离较小
* 相似度计算: 通过特征的余弦距离计算相似度, 余弦距离即计算两个向量夹角的余弦值.完全相关时为1,完全无关时为0

在线跟踪器(Online Tracker)

Online Tracker Algorithm

以上即为POI中在线跟踪器的算法,其中输入和输出为:
* 输入信息:t时刻的图像帧,t时刻图像帧上的检测框集合 Dt ,以及t-1时刻的跟踪框集合 Tt1
* 输出信息:t时刻的跟踪框集合 Tt
在Online Tracker中, POI使用Kalman Filter [参考文献3]做动作预测, Kuhn-Munkres 算法[参考文献4]做数据对应(即两个行人框集合之间的对应)

相似矩阵构建(Affinity Matrix Construction)

Kuhn-Munkres算法需要构建相似矩阵来进行两个集合之间的对应,相似矩阵中的元素即两个集合对应数据的相似度. POI中集合了运动,形状,表观特征来计算跟踪集和检测集之间的相似度.其中表观特征即上面讨论的用深度学习模型提取的特征.

affapp(trki,detj)=cosine(feattrki,featdetj)

affmot(trki,detj)
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值