论文:https://arxiv.org/abs/2108.00202
代码:GitHub - vision4robotics/HiFT: HiFT: Hierarchical Feature Transformer for Aerial Tracking (ICCV2021)
Abstract
大多数现有的基于孪生的跟踪方法基于相似度的方法,执行目标对象的分类和回归。然而,它们要么使用来自最后一个卷积层的单个特征图,这会降低复杂场景中的定位精度,要么单独使用多个特征图进行决策,从而为空中移动平台带来难以处理的计算。
因此,在这项工作中,提出了一种用于空中跟踪的高效分层特征变换器(HiFT)。由多层卷积层生成的多层特征图被馈送到特征变换器中,以实现空间(浅层)和语义线索(深层)的交互融合。因此,不仅可以提高全局上下文信息,促进目标搜索,而且的带有转换器的端到端架构可以有效地学习多层次特征之间的相互依赖性,从而发现具有强可分辨性的跟踪定制特征空间。对四个空中基准的综合评估证明了HiFT的有效性。在空中平台上的真实世界测试以实时速度有力地验证了其实用性。
Introduction
所提出的HiFT与现有技术的定性比较。由于分层特征变换器产生的有效跟踪定制特征空间,HiFT跟踪器可以在各种挑战下以令人满意的跟踪速度实现稳健的性能,而其他跟踪器则失去了有效性。
考虑到使用具有鲁棒表示能力的卷积神经网络(CNN)。然而,像AlexNet[30]这样的轻量级CNN很难提取出对复杂空中场景中的跟踪性能至关重要的鲁棒特征。使用更大的内核大小或更深的主干[31]可以缓解上述缺点,但效率和实用性将被牺牲。在文献中,扩张卷积[49]提出了扩大感受野并避免池化层导致的分辨率损失。不幸的是,它在处理小对象时仍然存在性能不稳定的问题。
最近,该变换器在具有编码器-解码器结构的许多领域显示出巨大的潜力[1]。
受变压器在建模全局关系方面的卓越性能的启发,尝试在空中跟踪中利用其架构来有效融合多级别2特征,以实现有希望的性能。同时,多层计算造成的效率损失以及变压器在处理小物体特征的过程中的缺陷会得到缓解。
具体而言,由于视觉跟踪中的目标对象可以是任意对象,因此原始变换器结构中的学习对象查询在视觉跟踪中很难很好地推广。因此,采用深层的低分辨率特征来替换对象查询。同时,还将浅层馈送到变换器中,以通过端到端训练发现具有强可分辨性的跟踪定制特征空间,该特征空间隐式地建模了来自高分辨率层的空间信息和来自低分辨率层的语义线索的关系。此外,为了进一步处理低分辨率对象面临的不足[52],在变压器中设计了一个新的特征调制层,以充分探索多层次特征之间的相互依赖性。如图1所示,所提出的分层特征变换器(HiFT)跟踪器在复杂场景下有效地实现了鲁棒性能。这项工作的主要贡献如下:
•提出了一种新的分层特征变换器来学习多层次特征之间的关系,从而为空中跟踪发现了具有强可分辨性的跟踪定制特征空间。
•设计了一个整洁的特征调制层和分类标签,以进一步利用暹罗网络中的分层特征,并提高处理小对象时的跟踪精度。
•对四个权威空中基准进行的综合评估验证了HiFT相对于其他最先进(SOTA)追踪器(即使是配备较深主干的追踪器)的良好性能。
•在典型的空中平台上进行了真实世界测试,证明了HiFT在真实世界场景中的卓越效率和有效性。
Proposed method
HiFT的工作流程如图所示。它可以分为三个子模块,特征提取网络、分层特征变换器和分类与回归网络。注意,在本文中,利用最后三层的特征来构建分层特征转换。

HiFT跟踪器概述。从左到右的模块是特征提取网络、分层特征变换器和分类与回归网络。三个不同颜色的箭头分别表示来自不同图层的要素的工作流。注意,只有编码器的输入与位置编码相结合。
3.1 Feature Extraction Network
深度CNNs,例如ResNet[25]、MobileNet[42]和GoogLeNet[43],已经证明了其惊人的能力,作为暹罗框架中流行的特征提取主干[31]。然而,高空平台很难承受深层结构带来的繁重计算。为此,HiFT采用了一个轻量级主干,即AlexNet[30],它在模板和搜索分支中都提供服务。为了清楚起见,模板/搜索图像分别由Z和X表示。φk(X)表示搜索分支的第k层输出。
备注1:尽管AlexNet的特征提取能力与那些更深的网络相比较弱,但所提出的特征转换器可以显著弥补这一缺陷,同时节省实时空中跟踪的计算资源。
3.2. Hierarchical Feature Transformer
提出的分层特征变换器主要分为两个步骤:高分辨率特征编码和低分辨率特征解码。前者旨在学习不同特征层的相互依赖性和空间信息,以提高对不同尺度对象(尤其是低分辨率对象)的关注。而后者从低分辨率特征图聚合语义信息。受益于丰富的全局上下文和分层特征之间的相互依赖性,方法发现了一个跟踪定制的特征空间。因此,变换特征在各种空中跟踪条件下的可分辨性和代表性显著提高。具体而言,利用了最后三层的特征。来自第k层的特征图在被馈送到特征transformer之前被卷积并重塑为Mi∈RW H×C(C,W,H分别表示特征图的通道、宽度和高度)

其中F表示卷积层,*表示互相关算子。然后,M'3∈RWH×C和M'4∈RW H×C可以通过补充可学习的位置编码来获得
3.2.1 Feature Encoding

为了充分探索分层特征之间的相互依赖性,使用M'3和M'4的组合作为多头注意力模块[1]的输入,即M1E,因为M1E=Norm(M'3+M'4),其中Norm表示标准化层。
结果,M03和M04之间的相互依赖性被有效地学习,以丰富高分辨率特征图M2E。然后,第一个多头注意模块的输出M2E。此外,M2E中还介绍了两个特征图中的全局上下文。之后,构建了调制层,以充分探索M3E和M'4之间相互依赖的潜力,其结构如图所示。3。具体地,通过M'3和M2E的归一化来获得调制层M3E的输入,即,M3E=Norm(M03+M2E)。在前馈网络(FFN)和全局平均池操作(GAP)之后,调制层M4E的输出。
由于调制层,M'4和M3E之间的内部空间信息被有效地利用,从而有效地将物体与复杂背景区分开来。最终,可以通过FFN和归一化来计算编码信息。
3.2.2 Feature Decoding
在解码之前,首先将低分辨率特征图重塑为等式(1)中的M5∈RW H×C。特征解码器遵循标准转换器[1]的类似结构。
不同的是,在没有位置编码的情况下构建了有效的特征解码器。由于将位置的数量视为多头注意力添加和规范FFN添加和规范Cat和Conv添加和规范多头注意力添加与规范多头注意力QKV添加和规范FFN添加和规范特征编码器特征解码器GAP和FFN调制层转换特征图㼿3′ 㼿4′ 㼿5元件和通道乘法QKV QKV图3。HiFT的详细工作流程。左侧子窗口说明了特征编码器。右图显示了解码器的结构。最佳颜色。
在的方法中,引入了位置编码来区分特征地图上的每个位置。为了避免对变换特征的直接影响,决定通过编码器隐式地引入位置信息。第4.3.3节稍后将对位置编码策略进行分析。解码器的结构如图3所示。
备注3:通过分层特征变换器,高/低分辨率特征中的空间/语义信息被充分利用,以提高最终变换特征的可分辨性。同时,调制层实现了不同特征层之间相互依赖性的聚合,增强了不同尺度的跟踪对象的鲁棒性。
3.3. Definition of Classification Label
分类和回归的结构由几个卷积层实现。为了实现准确的分类,应用了两个分类分支。一个分支旨在通过地面真相框中涉及的区域进行分类。另一个分支侧重于确定由地面真实中心和对应点之间的距离测量的正样本。此外,为了加速收敛,使用表示为T的伪随机数生成器来约束负标签的数量。
备注4:分类和回归的详细计算过程见补充材料。
因此,总损失函数可以确定为:Loverall=λ1Lcls1+λ2Lcls2+λ3Lloc,(6)
其中Lcls1、Lcls2、Lloc表示交叉熵、二进制交叉熵和IoU损失。λ1、λ2和λ3是平衡各损失贡献的系数。
4.3.3 Ablation Study

OT:object query
FT:feature map
PE:position encoding
RL: rectangle label
关于变换器架构的讨论:如表5所示,添加带有对象查询的原始变换器(Baseline+OT)直接降低了Baseline的性能,精度降低了2.29%,成功率降低了3.67%,这证明了对象查询在具有新目标对象的SOT中很难表现良好。用特征图代替对象查询,Baseline+FT将跟踪精度提高了10.47%。进一步采用调制层Baseline+HFT,产生了24.88%的最佳性能
关于位置编码和分类标签的讨论:本部分旨在证明两种策略,第3.2.2节中的位置编码和第3.3节中的新分类标签。对于位置解码,在表5中,跟踪器Baseline+HFT+PE极大地损害了HiFT的性能(从24.88%提高到12.77%),证明直接位置编码确实不适合功能M5。考虑到地面实况和采样点的距离,HiFT中使用的圆形策略与Baseline+HFT+RL中的传统矩形标签(2.95%)相比,实现了显著的改进(24.88%)。
备注6:请注意,补充材料中报告了更多消融研究。
6. Conclusion
在这项工作中,提出了一种用于有效空中跟踪的新型分层特征变换器,以简化利用全局上下文信息和多层次特征的过程。借助于低分辨率语义信息和高分辨率空间细节,变换后的特征可以通过轻量级结构在区分对象和杂波方面获得令人满意的性能。同时,由于调制层和新的分类标签,特征变换器的有效性可以达到其最大潜力。综合实验已经证实,HiFT可以实现出色的精度-速度权衡,并且可以在现实世界的空中跟踪场景中使用。此外,即使比较了具有较深骨干的追踪器,HiFT可以实现类似的性能。。