2021-05-24

Transformer Tracking阅读笔记

摘要

Correlation 是一种简单的衡量模板和搜索区域相似性的方式,但是它是一个local linear matching process局部线性匹配过程,导致丢失语义信息,容易陷入局部最优,这可能是设计高精度跟踪算法的瓶颈。
(经过Correlation得到的不是严格意义上的特征图,更贴切的说是一个相似性响应图,因此会丢失语义信息,不利于预测)
提出更好的feature fusion method特征融合方法,仅使用注意力来有效地组合模板和搜索区域特征。该方法包括基于self-attention的自我上下文增强模块和基于cross-attention的跨特征增强模块。

1、介绍

Correlation plays a critical role in integrating the template or target information into the regions of interest (ROI).
which limits the tracker to capture the complicated non-linear interaction between the template and ROIs.
主要贡献:
1、新的Transformer跟踪框架,由特征提取,类似于Transformer的融合和头部预测模块。
2、基于self-attention的自我上下文增强模块和基于cross-attention的跨特征增强模块。我们基于注意力的方法自适应地关注有用信息(例如边缘和相似目标),并在远距特征之间建立关联,以使跟踪器获得更好的分类和回归结果。
3、LaSOT,TrackingNet,GOT-10k实验,50FPS

同一个模型,后处理只使用了余弦窗,用的是默认的一套参数测试的。
Strong Baseline, Clean work!

2、Ego-Context Augment and Cross-Feature Augment Modules

ECA

Multi-head Self-Attention.
位置编码用的是sine function
X E C = X + M u l t i H e a d ( X + P x , X + P x , X ) X_{EC} = X+MultiHead(X+P_x, X+P_x, X) XEC=X+MultiHead(X+Px,X+Px,X)

CFA

Multi-head Cross-Attention.
X C F = X ~ C F + F F N ( X ~ C F ) X_{CF} = \widetilde{X}_{CF}+FFN(\widetilde{X}_{CF}) XCF=X CF+FFN(X CF)
X ~ C F = X q + M u l t i H e a d ( X q + P q , X k v + P k v , X k v ) \widetilde{X}_{CF} = X_q+MultiHead(X_q+P_q, X_{kv}+P_{kv}, X_{kv}) X CF=Xq+MultiHead(Xq+Pq,Xkv+Pkv,Xkv)

我们的方法中的交叉注意力操作比DETR中的交叉注意力操作起着更重要的作用,因为跟踪任务的重点是融合模板和搜索区域特征。

3、没解决的问题

Distractor:遮挡和外观变化同时出现,而且这个时候有干扰物存在的话就比较容易误判,没有极端情况的话还是能判别大部分干扰物的。
Out of the Search Region:4倍搜索区域有时候覆盖不到,对vot里一些序列,然后搜索区域扩大的话有可能会加剧干扰物的影响。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值