一、论文1:SiamFC Fully-Convolutional Siamese Networks for Object Tracking
论文链接:https://arxiv.org/abs/1606.09549
参考链接:https://zhuanlan.zhihu.com/p/107428605
单目标跟踪领域,该领域主要分为两大方向,一个是以相关滤波为主的传统的方向,该方向的经典之作即为KCF,奠定了单目标跟踪领域的基础,非常值得学习,另一方面则是近几年各领域攻城掠地的深度学习方法,其中最具有代表性的即为孪生网络系列,而Siamese系列的开山之作即为SiamFC.
传统的单目标跟踪算法多为在线跟踪,在线更新模型(KCF)。这种方法的好处就是速度快,但是跟踪质量并不是很高,而深度学习方法多为离线训练,在线跟踪,这样做的好处就是跟踪质量好,但是速度比不上相关滤波的方法,但是从这篇SiamFC论文开始,基于深度学习的方法在速度上已经可以和传统的相关滤波并驾齐驱,甚至更优。主要原因是因为Siam系列基于孪生结构,简单高效,接下来我们详细介绍这一结构。
所谓孪生结构,顾名思义,即为成对的结构,具体来说就是该结构有两个输入,一个是作为基准的模板,另一个则是要选择的候选样本。而在单目标跟踪任务中,作为基准的模板则是我们要跟踪的对象,通常选取的是视频序列第一帧中的目标对象,而候选样本则是之后每一帧中的图像搜索区域(search image),而孪生网络要做的就是找到之后每一帧中与第一帧中的范本最相似的候选区域,即为这一帧中的目标,这样我们就可以实现对一个目标的跟踪。本篇论文的孪生网络结构如下:
该结构首先z为输入的范本,即第一帧图像中的目标框,大小为127x127x3,x为输入的搜索图像,大小为255x255x3,接着对两个输入分别进行 φ变换(作者采用了AlexNet的网络结构),即为特征提取,分别生成了6x6x128和22x22x128的特征图(feature map),提取了特征之后,再对提取的特征进行互相关操作(即求卷积),生成响应图(heatmap),互相关操作如下:
其中, bΠ 为每个位置对应的值,’ ⋆’为卷积运算,通过卷积运算提取x中与z最为相近的部分,如下图所示:
卷积左边对应的是目标z的特征图,右边为搜索区域x的特征图(红蓝对应两个选择区域),最终生成的是响应图,响应值最高的位置就对应着z可能的位置。这里需要注意,网络最终生成的是17x17的heatmap,而输入时255x255的搜索区域,为了实现映射关系,作者将17x17的响应图进行双三次插值生成272x272的图像来确定物体的位置。
图片输入:
两个输入z与x的大小是确定的
其中第一帧的groundtruth是已知的(x_min,y_min,w,h),那么模板图像z的大小即为:
其中A=127^2,s是对图像进行的一种变换,即进行(w+2p)x(h+2p)的扩展,再resize成127x127的大小。
而对于搜索区域x来说,以上一帧预测的bbox的中心为裁剪中心,裁剪出255x255大小的图片。这里,作者为了提高跟踪性能,选取了多尺度进行预测,分别是1.025^{-2,-1,0,1,2},其中255x255对应尺度为1。之后作者又尝试了三种尺度的SiamFC-3s,提升了FPS。
这里特别指出,当模板和搜索图像不够裁剪时,要对不足的像素进行RGB通道的均值填充。
损失函数:
本文作者采用的是logistic损失函数。
优化函数:
通过MatConvNet使用随机梯度下降法进行(SGD)进行以下公式更新参数:
总结
SiamFC开创了将孪生网络结构应用在目标跟踪领域的先河,显著提高了深度学习方法跟踪器的跟踪速度,之后的相关深度学习跟踪器的方法也大多基于此方法进行改进和优化。所以该方法与KCF地位相近,都具有一定的里程碑意义。
二、论文2 ATOM:Accurate Tracking by Overlap Maximization
论文链接:https://arxiv.org/abs/1811.07628
参考链接:https://zhuanlan.zhihu.com/p/501570820
ATOM的oral视频:https://www.bilibili.com/s/video/BV1Lt411n7mK
动机
像UPDT一类的目标检测器可以很好地找出目标的位置,却不能对目标进行完整准确的标注框标注。目前通用的目标检测器,给出一个视频段并对第一帧进行标