MixFormer v2(NIPS23)

很久没有写track相关的博客了,正巧前几天组里的一个师兄找我问track的文章,正常就想起来了mixformer v2,所以顺手写一下总结。

MixFormerV2: Efficient Fully Transformer Tracking

专注efficiency的模型,还是王老师组的工作,track这块follow王老师组就完事了。

contribution:

  1. 无Conv,纯Transformer Layer + MLP,非常优雅
  2. 速度很快,通过蒸馏的方法在保持精度的情况下对CPU很友好,edge computing方向可以参考

论文链接
代码链接

模型结构图
整体架构如图

核心block是中间的Mixed Attention Module,包含三个不同的部分

  1. template-part的self-attention
  2. search-part的cross-attention Query来自Search Key和Value是template、search、tokens三个部分concat
  3. toekns-part的cross-attention 结构和search-part相似

通过这种不对称的attention设计,可以降低计算开销,同时融合特殊tokens信息来提升template和search的交互性。最后的结果输出也是四个tokens通过MLP得到Box的坐标

蒸馏部分

蒸馏示意图

  1. Stage1 在Head上,原始的backbone输出的feature tokens通过corner head来得到结果,通过对tokens的简化,将原本所有feature tokens压缩为对bounding box的左右上下四个顶点预测,计算两者概率分布的KL散度来尽可能保证性能的不损失。
  2. Stage2 在Backbone上,将部分block的attention和mlp归零,只保留residual connection
  3. Stage2 在新的Backbone上,重复第一步的Head操作,计算蒸馏前后Head输出的KL散度,从而保证最小化Backbone简化对预测的影响

性能

性能没啥问题!
性能对比
速度也很不错!
速度对比

总结

个人观点,相比于在limited dataset上的性能提升,track任务其实更应该focus在open-world场景下的robustness和edge computing情况下的efficiency。如何在有限算力情况下做到更简洁更鲁棒的表达才是真实需求。

  • 7
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值