STMTrack: Template-free Visual Tracking with Space-time Memory Networks

Motivation

离线训练的Siamese跟踪器充分挖掘了第一帧模板的信息,但是不能处理目标的表观变化。现有的方法要么基于耗时大量的优化,要么基于复杂设计的策略,阻碍了他们实时跟踪和实际应用,本文利用历史信息建立时空记忆网络,引导跟踪器聚焦于搜索图像上最有信息价值的区域,并且pixel级的相似性计算使得跟踪器生成更加精确的bbox。
作者提到以前的工作致力于设计一个模板更新机制,而本文是建立在记忆网络中,因此避免使用模板和更新,所以称作 template-free。疑惑。

Method

特征提取的部分包含了一个mask,c。
在这里插入图片描述

在这里插入图片描述

Spacetime Memory Network

结构如下,可以看到计算相似性是memory和query,可以理解为通过query去查询需要对哪些THW进行加权,所以是通过搜索图像获取需要的模板特征。
而且是通过pixel-wise交互使得可以获取长距离的信息。
不同于STMVOS的地方就在于没有分key和value做两次互相关,文章说这是因为已经组后来。
在这里插入图片描述

Inference

采样策略值得学习一下。除去第一帧和最近一帧,将所有历史帧分为N-2段,从中选最有代表性的一帧。
下面是间隔公式。
在这里插入图片描述

Training

采样3帧进行训练,除去搜索图像只有两个模板。并且是4倍目标的大小,所以模板包含了充分的背景信息。

Experiments

在这里插入图片描述
1.比较了搜索图像和模板是否共享一个backbone参数。如果模板加了mask-label的话,不共享更好一点。
我认为这是因为加了label本身模板就不是rgb图像,已经不再一个特征子空间了,所以分开计算更好。所以还是看你对rgb特征做了什么操作,相比另一篇文章就是在self-attention都要共享权重,这是因为他们需要在同一特征子空间。
2.是否使用前后景mask-label,由于搜索图像是4倍大小,所以显然需要对前后景进行监督更好。
在这里插入图片描述

3.在训练阶段,模板帧越多,网络倾向于比较最相似图像对,而不是学习当前帧和有着复杂背景和部分遮挡的模板图像。
4.在前传阶段,最合适的模板尺寸是6.

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

思考

对于模板和搜索图像同一子空间表现更好,如果是引入了别的信息,那么后面的网络就不能再保持一致。
其次对于时空建模,我可以看到concatenate起来就可以,但是要注意pixel-wise的相似度计算可能是提升的重点。问题在于重点是多个模板之间计算提升还是模板和搜索图像之间计算提升呢?可以验证一下。
再然后是关于模板图像时目标几倍的问题,显然大家都觉得引入更多的背景信息效果更好,只需要加个mask监督一下就行。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值