Motivation
本文探讨基于分割的跟踪没有有效地使用时序信息。1.基于bbox回归的跟踪器无法解绝复杂的非刚性变化,并且回归分支不能适应目标的表观变化。2.基于VOT的分割方法主要考虑没有较多背景相似干扰我i的大目标,所以应用于目标小,运动大的跟踪场景表现不好。
1.提出设计一个外观记忆网络(AMN),使分割分支适应时间外观变化,同时避免模型漂移。
2.利用DCF模型建立特征与空间之间的映射关系,进而构建空间存储网络(SMN)。
SMN有助于滤除AMN中的噪声样本,而AMN为SMN提供了更精确的目标几何中心
Method
AME 和SPE分别对表观和空间记忆编码生成key和value,query encoder对当前帧进行编码生成query
memory reader对表观特征和query编码生成value,对空间特征利用DCF生成目标特征图。最后结合生成分割mask。
Appearance Memory Network
memory reader就是个STM结构,在query和key之间利用non-local计算时空的相关性。
Spatial Memory Network(DCF跟踪器)
Decoder
Experiment
厉害,比其他的分割模型更加侧重于跟踪,所以VOT2020上鲁棒性更好
Sampling interval
采样间隔为0时退化为单模板不更新,可以看到不更新鲁棒性最差,精度也最差,但是更新间隔为5时最好。
last add比较是否加入最近一帧
Box2Seg Box-to-Segmentation 指训练和测试策略,能在跟踪时减缓不精确的bbox影响,更加适合跟踪问题。
Sample Filtering 空间滤波
Positional Encoding 受到CoordConv启发concat两个坐标通道到read-out特征
思考
简答来说就是STM加空间DCF引入位置编码,使得分割模型更加适合跟踪任务,引入了位置先验。
说到底还是non-local将模板和搜索图像特征交互起来,让卷积去学时空变化。
主要区别在于它有个mask,在做表观encodeing的时候模板信息更加丰富。