Siamese Transformer Pyramid Networks for Real-Time UAV Tracking

最新推荐文章于 2024-08-03 22:51:13 发布

菜鸟成神金之路

最新推荐文章于 2024-08-03 22:51:13 发布

阅读量398

点赞数 1

分类专栏：论文阅读笔记文章标签： transformer 深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_58244117/article/details/130379985

版权

论文阅读笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Siamese Transformer Pyramid Networks for Real-Time UAV Tracking

WACV2022, 纽约大学

摘要：

解决问题：

最近的目标跟踪方法依赖于深度网络或复杂的体系结构。这些跟踪器大多难以满足计算资源有限的移动平台上的实时处理需求。

具体工作：

1、使用轻量级卷积神经网络ShuffleNetv2中的固有的特征金字塔，再用transformer对特征金字塔进行强化，构建鲁棒性较强的特定目标的外观模型。

AlexNet充分利用卷积运算；MobileNet系列提出反向残差快和深度可分离卷积；ShuffleNet引入信道洗牌（channel shuffle）

首先，为了补充轻量级backbone的表征能力，我们将特征金字塔网络(FPN)集成到跟踪pipeline中。虽然现有的跟踪器[7,15,27]也采用多尺度特征，但大多数都是采用简单的组合或将特征用于不同的任务。

作者认为现有方法从根本上对表征能力的提升是有限的，因为一个判别representation需要结合来自多个尺度的上下文。尽管FPN从低/高层语义对金字塔信息进行编码，但它只利用局部邻域的上下文，而不是明确地对全局交互进行建模。FPN的感知受到感受野的限制，而感受野在较浅的网络上受到限制。受Transformer开发及其建模全局依赖的能力的启发，最近的作品引入了基于注意力的模块，并取得了较好的成果。然而，这些模型的复杂性可能会导致计算/内存开销，这并不适合金字塔架构。相反，我们设计了一个轻量级的Transformer注意力层，并将其嵌入到金字塔网络中。提出的Siamese变压器金字塔网络(SiamTPN)通过金字塔特征之间的横向cross注意增强了目标特征，产生了鲁棒的目标特定外观表征。

不是直接对特征图对执行互相关，而是首先将特征金字塔输入到TPN中，在模板分支和搜索分支之间共享。具体地，TPN将金字塔特征P3、P4、P5作为输入，并输出具有相同大小的P4的混合表示用于相关目的。然后，在参考分支和搜索分支的输出之间执行深度相关。

图1说明了我们的跟踪器与现有跟踪器之间的主要区别。

图 1目标跟踪体系结构比较。(a)基于孪生网络的跟踪，分别对金字塔层进行相互关联。(b)对不同任务使用金字塔特征的判别网络。(c) SiamTPN，其中特征首先将金字塔和Transformer模块融合，然后用于分类和回归。CNN的层次结构在逐渐增加的感受野中对上下文进行编码。本文没有迁移复杂的transformer的编码器和解码器范式，而是利用transformer的编码器，并设计了一个基于注意力的特征金字塔融合网络，以更有效地学习目标特定模型。

多头注意力参数量和计算量受到输入大小的影响。有三种方法可以降低计算成本：（1）减小查询大小，（2）减小C的维数，或（3）减小键和值的大小。

然而，减少查询大小也会减少预测头的点数，这最终会影响跟踪精度。同样的情况也发生在特征维数的降低上。由于具有可变分辨率的特征图被用作TPN中融合的key和value，我们提出了一个池化注意力（RA）层来减少K和V的空间尺度。具体地，K和V被先送到池化层中，池化和步长的大小都为R。

为了进一步降低注意力模块的计算成本，删除了原始MHA中的位置编码，原因如下：（1）输入token的排列受到最终互相关的约束。（2）访问和存储每个特征图的位置嵌入会花费不适合移动设备的额外资源。

图 2多头注意力模块与集中注意力（PA）模块。与原始注意力块相比，PA模块中的内存和时间复杂度与输入特征的大小无关，并由池化操作控制。

2、提出一种中心化的使用横向cross attention的架构（结构），用于构建增强的高层特征图。

图 3变压器金字塔网络（TPN）。来自不同级别P3−P5的特征被展平并输入到TPN块中。每个TPN块由5个PA层组成。分层信息由3个独立的PA层提取，并由2个附加的PA层进一步提取。为了提高效率，为每一层分配可变的stride and pooling比率R。

金字塔特征的构建包括自下而上的路径和集中的路径。自下而上的路径是来自骨干架构的前馈卷积，并产生特征层次{P3，P4，P5}。然后，一个集中的路径将特征层次合并为一个统一的特征。具体来说，我们使用P4作为所有特征层次结构的查询，生成具有不同池化规模的3个组合，这些组合由三个并行PAB锁处理。输出被直接添加并馈送到两个自注意PAB块中，以获得最终的语义特征。P3和P5被设置为同一个以避免计算/存储器开销。此外，PA块的设计保证了可以有效地提高层次特征之间的相互依赖性。TPN块重复B次，并产生用于互相关和最终预测的最终表示。简洁是我们设计的核心，我们发现我们的模型对各种设计选择都很稳健。

3、为了避免较高的计算和内存强度，同时融合金字塔特征表示与Transformer，进一步引入了池化注意力模块，该模块显著降低了内存和时间复杂度，同时提高了鲁棒性。

在空中和普遍跟踪基准上进行的综合实验在高速运行时取得了具有竞争力的结果，证明了SiamTPN的有效性。此外，我们最快的变体跟踪器在单个cpu核心上运行超过30 Hz，并在LaSOT数据集上获得58.1%的AUC分数。

图 4 Got10K测试集上跟踪方法在CPU(暗红色)或GPU(蓝色)上的质量和速度的比较。给出了相对于FPS的平均重叠(AO)。蓝色区域对应实时运行的跟踪器(30fps以上)。

菜鸟成神金之路

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Siamese Transformer Pyramid Networks for Real-Time UAV Tracking

本文没有迁移复杂的transformer的编码器和解码器范式，而是利用transformer的编码器，并设计了一个基于注意力的特征金字塔融合网络，以更有效地学习目标特定模型。1、使用轻量级卷积神经网络ShuffleNetv2中的固有的特征金字塔，再用transformer对特征金字塔进行强化，构建鲁棒性较强的特定目标的外观模型。的启发，最近的作品引入了基于注意力的模块，并取得了较好的成果。有三种方法可以降低计算成本：（1）减小查询大小，（2）减小C的维数，或（3）减小键和值的大小。以避免计算/存储器开销。
复制链接

扫一扫

专栏目录