Learning Spatio-Appearance Memory Network for High-Performance Visual Tracking

最新推荐文章于 2021-05-10 10:45:16 发布

lightning980729

最新推荐文章于 2021-05-10 10:45:16 发布

阅读量231

点赞数

分类专栏： Siamese加时序

本文链接：https://blog.csdn.net/weixin_44419695/article/details/115624798

版权

Siamese加时序专栏收录该内容

8 篇文章 4 订阅

订阅专栏

Motivation

本文探讨基于分割的跟踪没有有效地使用时序信息。1.基于bbox回归的跟踪器无法解绝复杂的非刚性变化，并且回归分支不能适应目标的表观变化。2.基于VOT的分割方法主要考虑没有较多背景相似干扰我i的大目标，所以应用于目标小，运动大的跟踪场景表现不好。

1.提出设计一个外观记忆网络（AMN），使分割分支适应时间外观变化，同时避免模型漂移。
2.利用DCF模型建立特征与空间之间的映射关系，进而构建空间存储网络（SMN）。
SMN有助于滤除AMN中的噪声样本，而AMN为SMN提供了更精确的目标几何中心

Method

在这里插入图片描述
AME 和SPE分别对表观和空间记忆编码生成key和value，query encoder对当前帧进行编码生成query
memory reader对表观特征和query编码生成value，对空间特征利用DCF生成目标特征图。最后结合生成分割mask。

Appearance Memory Network

在这里插入图片描述
memory reader就是个STM结构，在query和key之间利用non-local计算时空的相关性。

Spatial Memory Network（DCF跟踪器）

在这里插入图片描述

Decoder

在这里插入图片描述

Experiment

厉害，比其他的分割模型更加侧重于跟踪，所以VOT2020上鲁棒性更好
在这里插入图片描述

Sampling interval

在这里插入图片描述
采样间隔为0时退化为单模板不更新，可以看到不更新鲁棒性最差，精度也最差，但是更新间隔为5时最好。

last add比较是否加入最近一帧
Box2Seg Box-to-Segmentation 指训练和测试策略，能在跟踪时减缓不精确的bbox影响，更加适合跟踪问题。
Sample Filtering 空间滤波
Positional Encoding 受到CoordConv启发concat两个坐标通道到read-out特征

思考

简答来说就是STM加空间DCF引入位置编码，使得分割模型更加适合跟踪任务，引入了位置先验。
说到底还是non-local将模板和搜索图像特征交互起来，让卷积去学时空变化。
主要区别在于它有个mask，在做表观encodeing的时候模板信息更加丰富。

lightning980729

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Learning Spatio-Appearance Memory Network for High-Performance Visual Tracking

Motivation本文探讨基于分割的跟踪没有有效地使用时序信息。1.基于bbox回归的跟踪器无法解绝复杂的非刚性变化，并且回归分支不能适应目标的表观变化。2.基于VOT的分割方法主要考虑没有较多背景相似干扰我i的大目标，所以应用于目标小，运动大的跟踪场景表现不好。1.提出设计一个外观记忆网络（AMN），使分割分支适应时间外观变化，同时避免模型漂移。2.利用DCF模型建立特征与空间之间的映射关系，进而构建空间存储网络（SMN）。SMN有助于滤除AMN中的噪声样本，而AMN为SMN提供了更精确的目标几
复制链接

扫一扫