视觉跟踪方法:dlt(deep learning tracker)着实火了一把,它应该可以代表2013跟踪领域的state-of-art。最近对其进行了仔细的研究,现按照框架、核心思想、展望进行“深度解析”。
框架
整个算法还是在主流的PF(particle filter)概率框架下进行。PF要做的是:在一帧图像中选出多个候选区,然后通过各种方法对候选区进行确认(measure)。简要总结下:PF包括三个部分:drift--diffuse--measure 其目标是从视频帧中选出概率最大的跟踪框以完成跟踪。为达到目标我们用“粒子”对相邻两帧间的仿射参数进行建模,找权重最大的粒子。用权重最大的粒子+上一帧已知的跟踪结果=完成当前帧跟踪。
drift和diffuse分别完成对粒子的随机扰动和扩散过程,使得粒子尽可能分布在实际发生的仿射变换(实际粒子)处。最终判断哪些粒子接近实际粒子的过程由measure完成,一般都会先得到每个粒子对应的跟踪框,然后进行measure过程。不同的跟踪算法也是在measure部分有所区别,比如:IVT (Incremental visual tracking)利用增量PCA online更新模板,与每个粒子跟踪框进行相似度比较,相似度最高的跟