Learning Spatio-Appearance Memory Network for High-Performance Visual Tracking

Motivation

本文探讨基于分割的跟踪没有有效地使用时序信息。1.基于bbox回归的跟踪器无法解绝复杂的非刚性变化,并且回归分支不能适应目标的表观变化。2.基于VOT的分割方法主要考虑没有较多背景相似干扰我i的大目标,所以应用于目标小,运动大的跟踪场景表现不好。

1.提出设计一个外观记忆网络(AMN),使分割分支适应时间外观变化,同时避免模型漂移。
2.利用DCF模型建立特征与空间之间的映射关系,进而构建空间存储网络(SMN)。
SMN有助于滤除AMN中的噪声样本,而AMN为SMN提供了更精确的目标几何中心

Method

在这里插入图片描述
AME 和SPE分别对表观和空间记忆编码生成key和value,query encoder对当前帧进行编码生成query
memory reader对表观特征和query编码生成value,对空间特征利用DCF生成目标特征图。最后结合生成分割mask。

Appearance Memory Network

在这里插入图片描述
memory reader就是个STM结构,在query和key之间利用non-local计算时空的相关性。

Spatial Memory Network(DCF跟踪器)

在这里插入图片描述

Decoder

在这里插入图片描述

Experiment

厉害,比其他的分割模型更加侧重于跟踪,所以VOT2020上鲁棒性更好
在这里插入图片描述

Sampling interval

在这里插入图片描述
采样间隔为0时退化为单模板不更新,可以看到不更新鲁棒性最差,精度也最差,但是更新间隔为5时最好。
在这里插入图片描述
last add比较是否加入最近一帧
Box2Seg Box-to-Segmentation 指训练和测试策略,能在跟踪时减缓不精确的bbox影响,更加适合跟踪问题。
Sample Filtering 空间滤波
Positional Encoding 受到CoordConv启发concat两个坐标通道到read-out特征

思考

简答来说就是STM加空间DCF引入位置编码,使得分割模型更加适合跟踪任务,引入了位置先验。
说到底还是non-local将模板和搜索图像特征交互起来,让卷积去学时空变化。
主要区别在于它有个mask,在做表观encodeing的时候模板信息更加丰富。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值