SA-Siam

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/zxgravity/article/details/82024793

CVPR2018的一篇目标跟踪的文章。先给出原文链接:https://arxiv.org/abs/1802.08817
代码暂时未放出。

该论文核心思想:改进SiameseFC跟踪算法,将类别语义信息分支加入跟踪框架,帮助跟踪。

先上总框架图:
这里写图片描述
这里有两个branch,分别是Appearance branch(蓝色)和Semantic branch(橙色),两个branch最后都通过与第一帧目标在特征空间做相关得到响应图h,两个响应图求加权平均,得到最终响应图,找到最终响应图最大响应点,并插值到原图中的位置,即可得到当前帧目标位置,完成当前帧跟踪。

接下来,分别看一看两个分支的具体构成和实现细节。
Appearance branch/SiameseFC:
这里写图片描述
z:第一帧给出的目标的groundtruth图像;
x:当前帧的搜索区域图像;
φ:神经网络映射函数;
*:相关运算

训练阶段(training):
(1)数据集:ILSVRC中的视频目标检测数据集,共4500个视频序列,每帧都标记groundtruth,每次输入网络的是目标图像和以目标图像为中心的带有部分背景的图像;
(2)损失函数与样本标签:使用logistic loss。最后输出是一个响应图,样本标签是与这个响应图等尺寸的0/1标签图,靠近真实目标的位置标签为1(如红色部分),远离真实目标的位置标签为-1(如蓝色部分);
(3)特征提取网络结构:AlexNet去掉最后一个pooling层和所有全连接层。

跟踪阶段(testing):
(1)通过深度网络提取搜索区域特征和第一帧groundtruth图像的特征;
(2)对这两个特征进行求相关(实际通过卷积实现),得到响应图;
(3)选择响应最大位置为目标位置,并更新尺寸;
(4)以此目标位置为中心,确定下一帧搜索区域。

Semantic branch:
这里写图片描述
这个分支的训练方法与Appearance branch类似。
testing阶段,这个分支也会得到一个响应图,这个响应图会与Appearance branch的响应图求加权平均,得到最终响应图。经过实验,论文给出的加权系数为0.3,即0.3A+0.7S

有几个点需要注意:
(1)S-Net直接使用预训练好的AlexNet参数,不用再训练;
(2)两路输入均包含了背景。groundtruth分支输入以真实目标为中心的与搜索区域等尺寸的区域图像,而不仅仅输入真实目标图像,是为了使用更多的背景信息,这对attention结构是有用的;
(3)使用了conv4和conv5层特征。两层特征融合,已经证明对跟踪精度有好处,因为高层特征关注语义,而低层特征保有更精确的位置信息,二者可以互补;
(4)有一个attention结构。attention结构提供特征的channel-wise权重,参数需要学习;
(5)有一个fuse结构。fuse结构可以看作是特征融合,参数需要学习。

其中的attention结构:
这里写图片描述
在此结构中,特征的各通道权重分别计算,其中conv4层特征空间分辨率为24x24,conv5层则为22x22。对每个特征通道,按上图方法划分成9格(9个格子尺寸不等),然后执行最大池化,得到9维特征,经过MLP(多层感知机)和一个sigmoid函数,最后得到该通道权值。

fuse结构较简单:是1x1的ConvNet,对conv4和conv5特征分别做fusion,得到总共256个通道的特征(其中conv4和conv5特征各有128个通道)。

关于网络结构设计的讨论:
1.分开训练Semantic branch和Appearance branch。论文说能得到更好的结果,但限于篇幅,没有给出对比结果;
2.不对S-Net进行微调。论文解释:因为微调S-Net可能使S-Net和A-Net提取的特征变得相似,对集成没有好处;
3.不在Appearance branch使用多层特征和attention结构。论文解释:使用多层特征对效果提升没有明显帮助,因为A-Net不同层特征差异不大;A-Net高层特征很稠密(不像用于分类的S-Net,高层特征很多都是0),使用前述maxpooling会损失大量信息,因此attention结构不适用

最后看看部分实验结果:
1.Ablation study:
这里写图片描述
2.与其他算法对比:
这里写图片描述

完整实验结果参看原论文。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值