MixFormer:End-to-End Tracking with Iterative Mixed Attention论文笔记

代码地址: mirrors / MCG-NJU / mixformer · GitCode

论文地址:2302.02814.pdf (arxiv.org)

常用的目标跟踪器流程是特征提取、目标信息融合、边界框估计;为了简化这一流程,文章提出了一个基于transformer的跟踪框架,将特征提取和目标信息融合整合到了一块,即MixFormer,核心就是提出MAM(混合注意力模块),用来同时提取特征以及目标信息融合,Mixformer也就是堆叠多个MAM,最后再加个定制化头所构成。此外,为了在线跟踪中处理多个模板,文章提出了一个有效的分数预测模块来选择高质量的模板。

MAM的输入是模板和搜索图像,在这二者之间可分离的token序列执行双重混合注意力操作,也就是对模板和搜索图像本身的token序列作自注意力,同时对其二者之间的token序列做交叉注意力,如下图a所示。W-MAM:在每个特征图(q、k、v)上执行可分离的深度卷积,接着展平每个目标和搜索特征图,并通过线性投影生成qkv,将此时所得到的目标qkv和搜索qkv经混合注意力操作,Attention Operation被定义如下:

其中d时k的维度,Attentiont和Attentions分别是目标和搜索的注意力图。然后将目标token和搜索token连接起来通过线性投影,最后通过层规范化和MLP函数。

S-MAM:W-MAM由于reshape操作和深度卷积操作导致跟踪速度缓慢,而且缺乏灵活性。为解决这些问题,提出了S-MAM,其实就是将W-MAM里边的深度卷积那个操作移除掉了,后续的操作和W-MAM一样。

非对称混合注意力方案:从目标查询到搜索区域的交叉注意力并不是很重要,很有可能会因为一些潜在的干扰带来负面影响。为了降低MAM的计算成本,提出了一种定制的非对称混合注意力方案,定义如下:

分数预测模块(SPM)由两个注意力块和一个三层感知器组成,首先,可学习分数token用作参与搜索ROI token的查询,接着得分token关注初始目标token的所有位置,将挖掘的目标与第一目标进行比较,最后通过MLP层和sigmoid激活生成最后得分结果。SPM训练是在骨干网络训练之后进行的,使用标准的交叉熵损失进行训练:

其中,yi是真实标签,pi是预测的置信度分数,只有在达到更新间隔时才更新在线模板,并选择置信度得分最高的样本。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值