文章目录
Paper: mdnet论文
Code:py-mdnet
这篇论文发表在CVPR2016,提出了多域的想法(多个跟踪的视频),学习与域无关的表示,并在专门的跟踪数据集上进行训练,在线训练(共享层不动,只更新全连接层)、在线更新(长期和短期的更新),困难样本挖掘,速度慢但是跟踪的准确度高,下面详细介绍一下。
Abstract
我们提出了一个新的视觉跟踪算法,基于卷积神经网络训练表示。我们的算法在使用一个标有跟踪真值的大规模视频来预训练CNN,以获得一个通用的目标表示。我们的网络由共享层和多分支特定域层组成,这里的域对应于单个训练序列,每一个分支负责二进制分类来识别每个域的目标(Our network is composed of shared layers and multiple branches of domain-specific layers, where domains correspond to individual training sequences and each branch is responsible for binary classification to identify target in each domain)。我们迭代的训练网络中的每个域使得在共享层中获得通用的目标表示。当跟踪一个新序列的目标时,我们构建了一个新的网络,通过把预训练的CNN的共享层和在线更新的二进制分类层连在一起。在线跟踪通过评估前一帧周围随机采样的候选框来进行。提出的算法在现有的跟踪基准上显示出出色的表现。
Introduction(这部分写的很好,可以读论文)
没有专门针对视觉跟踪的大数据集来训练一个网络,最近通过在ImageNet上预训练CNN来解决数据基金不足的问题。(Although these methods may be sufficient to obtain generic feature representations, its effectiveness in terms of tracking is limited due to the fundamental inconsistency between classification and tracking problems)
(To fully exploit the representation power of CNNs in visual tracking, it is desirable to train them on large-scale data
specialized for visual tracking, which cover a wide range of variations in the combination of target and background)
想要训练一个既通用且判别力强的网络是有挑战性的,首先每个视频都不一样,包含不同的目标、标签,而且会有对应的挑战。更困难的是同一个目标在一个序列是被认为是目标,而了另一个序列被作为背景。由于这些序列的变化和不一致性,我们相信基于标准的分类任务的一般的学习方法是不适用的,为了更好的表示,可以捕获特定序列信息的方法应该被结合起来。
Related Work
Visual Tracking Algorithms
generative methods
discriminate methods
correlation filters
Multi-Domain Learning
MDNet
网络结构如图所示(smaller)小网络的优势论文有说明,VGG-M,输入是107x107RGB图像,有三个卷积层(conv1-3),两个全连接层(fc4-5),为共享层
此外网络有K个分支,也就是最后一个全连接层(fc6 1-K)对应于K个域(训练序列) domain-specific layers
每个K分支包含了具有softmax交叉熵损失二进制分类层,负责区分每个域的目标和背景
学习目标表示的共有的属性:对光照、运动模糊、尺寸改变的鲁棒性
为了提取有用的特征来满足这些共有的属性,我们将与域无关的信息和特定域分离。通过使用多域学习框架。
Train: 加载vgg-m模型,在vot上进行训练,通过SGD方法,一次迭代一个域,然后在otb上进行测试
Oline Tracking: 多分支被替换成单分支,fine-tune新的特定的域和共享网络的全连接层。
long-term updates(using positive sample in a regular intervals)
short-term updates(whenever potential tracking failures)
Hard Minibatch Mining:
Bounding Box Regression: (1000 training examples) 参考 博客
Given the first frame of a test sequence, we train a simple linear regression model to predict the precise target location using conv3 features of the samples near the target location.The bounding box regressor is trained only in the first frame.
跟踪算法的整体流程如下:
Training data:
- offline multi-domain learning (50 positive IOU>=0.7,200 negative IOU<=0.5)
- online learning(50 positive IOU>=0.7,200 negative IOU<=0.3)
- mini-batch(32 positivie and 96 negative)
results
For offline training of MDNet, we use 58 training sequences collected from VOT2013 [27], VOT2014 [26] and VOT2015 [25], excluding the videos included in OTB100.
In VOT challenge protocol, target is re-initialized whenever tracking fails and the evaluation module reports both accuracy and robustness, which correspond to the bounding box overlap ratio and the number of failures, respectively.
Our network is pretrained using 89 sequences from OTB100, which do not include the common sequences with the VOT2014 dataset.
Conclusion
MDNet 和 SDNet 本质区别在哪里呢?多域只体现在离线训练阶段,MDNet是多分支多个视频,SDNet是单分支多个视频训练,为什么就是MDNet就可以学习与域无关的特征表示,而SDNet不可以吗?
The entire network is pretrained offline, and the fully connected layers including a single domain-specific layer are fine-tuned online.
不管了,去跑代码吧!
Tracking
Train