2017目标跟踪算法综述

2017目标跟踪算法综述

作者:Kindle君
时间:2017年7月31日。
声明:版权所有,转载请联系作者并注明出处

  1. 本文所提的跟踪主要指的是单目标跟踪,多目标跟踪暂时不作为考虑范围。
  2. 本文主要从常用的评价标准,如EAO,EFO,fps等,分析2016-2017年最新出的目标跟踪文章在应用层面的优缺点。
  3. 算法原理不作为本文重点,旨在对比不同方法的“效果和时间性能”,方便大家根据不同的业务常见选择不同的方法。
  4. 本文按照以下几类进行展开,并不局限于传统方法或者深度学习。
    TCNN & C-COT & ECO (根据名次递增)
    CFNet & DCFNet & SANet & DRLT (端到端CNN & RNN)
    CA-CF & BACF (利用背景信息,框架性通用改进)
    ACET & Deep-LK (优于C-COT or MDNet, 且CPU实时)
    LMCF & Vision-based (速度提升,但性能提升不明显CPU实时)

目标跟踪VOT2016 BenchMark评价标准介绍

目标跟踪VOT2016 BenchMark评价标准介绍

推荐网站

OTB Results: 这是foolwood总结的目标跟踪发展主线图:
trackerCompare
这是foolwood总结的
这是浙江大学Mengmeng Wang同学在极视角公开课上展示的一个总结:
mengmengWang
foolwood这个人在github上最新的一些跟踪方法常见数据集上的结果比较。

TrackerAUC-CVPR2013Precision-CVPR2013AUC-OTB100Precision-OTB100AUC-OTB50Precision-OTB50Deep Learning
ECO--0.694---Y
SANet--0.6920.928--Y
MDNet0.7080.9480.6780.9090.6450.890Y
TCNN0.6820.9370.6540.884--Y
C-COT0.6730.8990.6710.8980.6140.843N
CRT--0.6440.8750.5940.835N
DNT0.6640.9070.6270.851--Y
SINT+0.6550.882----Y
DRT0.6550.892----Y
RDT0.654-0.603---Y
SRDCFdecon0.6530.8700.6270.8250.5600.764N
DeepLMCF0.6430.892----Y
MUSTer0.6410.8650.5750.774--N
DeepSRDCF0.6410.8490.6350.8510.5600.772Y
SINT0.6350.851----Y
LCT0.6280.8480.5620.7620.4920.691N
SRDCF0.6260.8380.5980.7890.5390.732N
LMCF0.6240.839----N
SCF0.6230.874----N
SiamFC0.6120.815----Y
SiamFC_{3s}0.6080.8090.5820.773--Y
CF20.6050.8910.5620.8370.5130.803Y
HDT0.6030.8890.6540.8480.5150.804Y
Staple0.6000.7930.5780.784--N
FCNT0.5990.856----Y
CNN-SVM0.5970.8520.5540.8140.5120.769Y
SCT0.5950.845----Y
SO-DLT0.5950.810----Y
BIT0.5930.817----N
DLSSVM0.5890.8290.5410.767--Y
SAMF0.5790.7850.5350.743--N
RPT0.5770.805----N
MEEM0.5660.8300.5300.7810.4730.712N
DSST0.5540.7370.5200.6930.4630.625N
CNT0.5450.723----Y
TGPR0.5290.7660.4580.643--N
KCF0.5140.7400.4770.6930.4030.611N
GOTURN0.4440.6200.4270.572--Y

TCNN & C-COT & ECO (根据名次递增)

==TCNN:17_arXiv CVPR_(TCNN)_Modeling and Propagating CNNs in a Tree Structure for Visual Tracking==

  1. 2016年8月25提交,已发表在CVPR
  2. 2016年VOT比赛的亚军,效果最佳,性能较差,但树结构的思想可以借鉴
方法dataset帧率fps机器配置是否Deep Learning
TCNNOTB-50、OTB-100、VOT-20151.5Intel Core i7-5820K CPU with 3.30GHz and a single NVIDIA GeForce GTX TITAN X GPUY
数据源
TCNN_OTB13_14
TCNN_VOT2015

==C-COT:16_ECCV_(CCOT)_Beyond Correlation Filters - Learning Continuous==

  1. 2016年8月29提交
  2. VOT2016第一名
  3. 速度较慢,性能很好,思路可以借鉴
方法dataset帧率fps机器配置是否Deep Learning
C-COTOTB-2015、Temple-Color1.05i5 6600 4.5GHz(网上别人测的)Y
数据源
C-COT_OTB_temple
C-COT_VOT2015

==ECO==:

  1. 2016年11月28提交
  2. 效果最好,性能最佳
方法dataset帧率fps机器配置是否Deep Learning
ECOVOT20166 (不含特征提取)a 4-core Intel Core i7-6700 CPU at 3:4 GHz.Y
8 (含特征提取)a 4-core Intel Core i7-6700 CPU at 3:4 GHz. & a Tesla K40 GPUY
ECO-HCUAV12360(含特征提取)a 4-core Intel Core i7-6700 CPU at 3:4 GHzN
ECOTempleColora gain of 0:8% in AUC than C-COT
ECO-HCOTB-201560fps(含特征提取)a 4-core Intel Core i7-6700 CPU at 3:4 GHzN
数据源
ECO-VOT2016
ECO-UAV123_OTB15_TempleColor

CFNet & DCFNet & SANet & DRLT (端到端CNN & RNN)

==CFNet==:

  1. 2017年4月20日提交到arXiv CVPR
  2. 在保证一定效果的情况下,参数占用空间较小100-600k
  3. GPU下可达到实时
方法dataset帧率fps机器配置是否Deep Learning
CFNetOTB-2013、OTB-50、OTB-10043-834.0GHz Intel i7 CPU and an NVIDIATitan X GPUY
数据源
CFnet

==DCFNet(17_arXiv prePrint_(DCFNet)_ Discriminant Correlation Filters Network for Visual Tracking)==

  1. 2017年4月13日发表到CVPR,作者foolwood,就是最开始提的那个会及时tracker的github博主,代码开源了:https://github.com/foolwood/DCFNet
  2. 效果和速度较CFNet均有提升,且GPU比CFNet的GPU更低端
  3. 存储空间更小,工程化的可能性比CFNet更大:The convolutional layers of our lightweight network (only
    75KB) consist of conv1 from VGG [14] with all pooling layers removed and the output forced to 32 channels
  4. 在NUS-PRO、TempleColor128、UAV123训练,在OTB-2013、OTB-2015、VOT-2015上测试
  5. 用到了RNN, 输入crop到125x125
方法dataset帧率fps机器配置是否Deep Learning
DCFNetOTB-2013、OTB-2015、VOT-201536.86-89.44Intel Xeon 2630 at 2.4GHz and a single NVIDIA GeForce GTX 1080 GPUY
数据源
DCFNet_OTB
DCFNet_ablation_study
DCFNet_VOT2015

==SANet:17_CVPR_(SANet) Structure-Aware Network for Visual Tracking==

  1. 2017年5月1日发表CVPR
  2. 采用RNN+CNN的架构
  3. 可能是因为效果做的比MDNet还要好把,虽然也很耗时
方法dataset帧率fps机器配置是否Deep Learning
TC-128、OTB100、VOT201513.7 GHz Intel i7 Core and a NVIDIA GTX TITAN Z GPU
数据源
SANet_OTB100
SANet_TC128
SANet_VOT2015

==DRLT:17_arXiv prePrint_(DRLT)_Deep Reinforcement Learning for Visual Object Tracking in Videos==

  1. 2017年1月30日提交到arXiv CVPR,4月10日修改
  2. 提出一种 convolutional recurrent neural network model, 可以学习到单帧图像的空间表示 以及 多帧图像之间的时序上的表示
  3. 端到端的进行训练的 deep RL algorithm,模型完全是 off-line的
  4. 模型构成:CNN 特征提取部分(YOLO)+RNN(LSTM) 历史信息构建部分+DEEP-RL模块(第一个用上RL)
  5. 有tensorflow源码
  6. 在30 challenging and publicly available video sequences 和 8 个tracker比较
方法dataset帧率fps机器配置是否Deep Learning
DRLT30 challenging and publicly available video sequences45NVIDIA GTX 1080 GPUY
数据源
DRLT_Precision_Success
DRLT_precision&fps_30challengeVideos

CA-CF & BACF (利用背景信息,框架性通用改进)

==CA-CF:17_CVPR_(CA-CF)Context-Aware Correlation Filter Tracking==

  1. 2017年CVPR(oral)
  2. 出发点是对基于相关滤波的算法进行的框架上的改进,所有用相关滤波的算法都可以套用,牺牲fps,带来显著的性能提升,好文章,可以借鉴!
  3. 第二张图是对视频按照每个算法的真实速度进行降采样后的跟踪效果。可以看到用了CA进行改进后的staple效果是最好的
  4. 作者除了HCFT [2] (2015 ICCV),比较的都是比较传统的算法,没有与别的用了CNN特征的算法进行比较
方法dataset帧率fps机器配置是否Deep Learning
CA-CFOTB-100Intel Xeon CPU E5-2697 2.6GHz, 256GB RAM) using MATLAB
数据源
CA-CF_OTB100
CA-CF_OTB100_with&without variable frame rate

==BACF:17_CVPR_(BACF)_Learning Background-Aware Correlation Filters for Visual Tracking==

  1. 2017年3月14号发表到arXiv CVPR
  2. 扩大了循环矩阵采样的区域(样本数量增加),并且在每个样本上裁剪出了有用的样本区域(样本质量变好)
  3. 均在CPU上运行,效果优于大多数传统方法,平均帧率35.3;
  4. 效果比CCOT稍微好一点,但速度176倍
方法dataset帧率fps机器配置是否Deep Learning
BACFOTB-50、OTB-100、TC129、60 challenging videos of VOT-201535.3Intel Core i7 running at 2.40 GHzN
数据源
BACF-OTB50-OTB100-TC128
BACF-OTB100-SRE_TRE
BACF_CompareWithCNN
BACF-VOT2015
BACF_fpsCompare

ACET & Deep-LK (优于C-COT or MDNet, 且CPU实时)

==ACET:17_arXiv prePrint_(ACET)_Active Collaborative Ensemble Tracking==

  1. 2017年4月28提交到arXiv CVPR
  2. 测试数据集只有OTB-50,但Performance优于C-COT,且CPU实时。
方法dataset帧率fps机器配置是否Deep Learning
ACETOTB-5037.16P-IV PC at 3.5 GHz, with a Mathlab/C++ implementationN

ACET
p.s.
illumination and scale variations (IV, SV), in- and out-of-plane rotations (IPR, OPR), fast motion and motion blur (FM, MB),
deformations and low-resolution (DEF, LR), occlusion and
shear problem (OCC, OV), and background clutter (BC)

==Deep-LK:17_arXiv prePrint_(Deep-LK)_ for Efficient Adaptive Object Tracking==

  1. 2017年5月19提交到arXiv
  2. 用AlexNet提特征
  3. 在25 challenging videos of the VOT14 上达到75fps(GPU)
  4. 在Nfs Video上优于MDNet,但速度提高30倍(CPU)到38倍(GPU)
  5. 对比的方法中,只有SRDCF和FCNT效果与MDNet持平,且二者fps差不多,约为MDNet的5倍
  6. CPU下fps为100,只比GOTURN低55.3,但效果好10.4个点
方法dataset帧率fps机器配置是否Deep Learning
Deep-LKVOT-2014、Nfs Video20.7(CPU),75-100(GPU)未指明Y
数据源
Deep-LK_VOT2014
Deep-LK_NfsVideo_table
Deep-LK_NfsVideo_figure

LMCF & Vision-based (速度提升,但性能提升不明显CPU实时)

==LMCF:17_CVPR_(LMCF)_Large Margin Object Tracking with Circulant Feature Maps==

  1. 2017年5.15发表到arXiv CVPR
  2. 相同机器下,CCOT 0.25fps,LMCF 10fps
  3. 性能略好于Staple,速度比SiamF和HCF比较,速度更快
方法dataset帧率fps机器配置是否Deep Learning
LMCFOTB-2013、OTB-2015LMCF 80 & DeepLMCF 10LMCF with a PC with a 3.60 GHz CPU and DeepLMCF with a tesla k40 GPUY
数据源
LMCF

==Vision-based:17_arXiv prePrint_(NULL)_Vision-based Real-Time Aerial Object Localization and Tracking for UAV Sensing System==

  1. 2017年3月19日提交到arXiv CVPR,只测试了15个较难的数据集,而且只和15年之前的方法进行比较,
  2. CPU速度达到141.3fps
方法dataset帧率fps机器配置是否Deep Learning
Vision-based选取了15个视频141.3in C++ with OpenCV 3.0.0 on a PC with an Intel Xeon W3250 2.67 GHz CPU and 8 GB RAMN

image

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值