【论文阅读笔记】InterTrack: Interaction Transformer for 3D Multi-Object Tracking

猛男是我啊

于 2023-05-30 10:05:06 发布

阅读量520

点赞数

分类专栏：多目标跟踪MOT 文章标签：论文阅读 transformer 目标跟踪深度学习

本文链接：https://blog.csdn.net/weixin_44186462/article/details/130932721

版权

多目标跟踪MOT 专栏收录该内容

2 篇文章

订阅专栏

InterTrack论文提出了使用InteractionTransformer来增强目标特征的区分性，通过自注意力和交叉注意力进行特征交互，改进了3D目标跟踪的关联方法。该方法在nuScenes数据集上取得最佳成绩，强调了考虑交互对于处理密集场景和快速移动物体的重要性。此外，通过消融实验验证了Transformer结构在匹配特征上的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

InterTrack: Interaction Transformer for 3D Multi-Object Tracking论文阅读笔记

论文：InterTrack
代码：未开源

0.创新点

使用Interaction Transformer来生成具有显著区别的目标特征
设计了一种以端到端方式估计轨迹/检测亲和力的新方法，通过注意力机制来聚合上下文目标的状态和形状特征，最终回归出affinity scores.
引入了重复轨迹删除策略，就是通过3DIoU来删除重复的轨迹
在nuScenes数据集中针对所有使用CenterPoint检测器的方法中获得了第一名

1.Introduction

For effective association, features should be discriminative such that feature comparison results in accurate affinity estimation 指出特征应该是有区别的，可以用于准确匹配的
Independent methods, however, tend to suffer from high feature similarity, particularly for densely clustered objects (see Figure 1).指出在密集场景所提取到的特征往往是具有相似性的（潜台词就是这些特征不能用于很好的匹配）
We argue all interactions are important, as for example, short range interactions can be helpful for differentiating objects in dense clusters, while long range interactions can assist with fast-moving objects with large motion changes.认为特征交互很重要

2.Related Work

从Transformer、Image Feature Matching、Multi-Object Tracking进行总结

InterTrack directly address the limitation of interaction modeling for data association, by introducing the Interaction Transformer to 3D MOT. Doing so allows for complete interaction modeling, leading to improved object feature discrimination. InterTrack only leverages the Transformer for data association to provide an interpretable solution for safety-critical applications in autonomous vehicles. 通过Interaction Transformer来构建有区别性的特征并仅使用transformer进行匹配

3.Methodology

整体框架图
在这里插入图片描述
（1）将上一帧的轨迹及上一帧的原始点云送入到特征提取器中特征上一帧轨迹的特征
（2）将当前帧检测及当前帧原始点云送入到特征提取器中特征当前帧检测的特征
（3）将检测和和轨迹的特征送入的Interaction Transformer模块进行特征交互
（4）将交互的特征送入Affinity Head模块产生 Affinity Matrix（即用于匹配的代价矩阵）

3.1Affinity Learning

Object Feature Extractor（特征提取器）

包含两类特征：状态特征（State Features）和形状特征（Shape Features）
- 状态特征（State Features）
  状态特征包括(x, y, z, l, w, h, θ, ̇x, ̇y, c, s)11维向量，通过State Layers获取
- 形状特征（Shape Features）
  采用SECOND网络提取，产生BEV features
然后将状态特征（State Features）投影到BEV网格中，使用ROI Align来提取相应目标的形状特征，然后将两类特征进行拼接（concat）
Interaction Transformer（特征交互机制）

首先将得到的检测和轨迹的特征各自进行self-attention，然后再进行crosss-attention，具体结构如下图所示：

对于self-attention而言，figure3中的A和B是一样的（无论对于检测或是轨迹），而对于cross-attention，A和B分别为检测和轨迹（或轨迹和检测）的特征，即轨迹和检测之间的特征进行交互。其中self-attention仅交互一帧的信息，可以理解学习上一帧轨迹的空间位置信息，而cross-attention学习不同帧之间的时间信息（上一帧与当前帧）

3.2 3D Tracking

输入包括2D和3D检测，然后采用EagerMOT两阶段的方式进行跟踪。

第一阶段的匹配：将上一帧所有的轨迹与当前帧所有的3D检测进行匹配，代价矩阵为学习到的 $A_t$ ,然后使用匈牙利匹配，并且使用EagerMOT中的scaled Euclidean distance过滤掉不满足要求的匹配对
第二阶段的匹配：将所有在第一阶段未匹配上的轨迹投影到图像平面与在融合阶段没有3D检测与之融合的2D检测通过IoU进行匹配。
Track Prediction/Update：抛弃了卡尔曼滤波而是采用CenterPoint的方式进行预测，即直接通过恒速模型对轨迹状态进行预测，若匹配上了，则直接用当前帧的检测状态替换轨迹预测的状态
Track Overlap Rejection：这里考虑的目的在于检测器在进行NMS处理时并没有完全过滤掉重复的检测，这就导致新的检测在初始化为轨迹时可能就是一条已经存在的轨迹。本文将轨迹之间计算IoU，大于阈值的认为是重复轨迹，则去除帧数较少的那个轨迹

3.3 损失计算

在这里插入图片描述
$\widehat{A}_t$ 为GT，通过将当前帧检测与上一帧GT轨迹计算3D IoU获得，匹配正确的 $\widehat{A}_t=1$ ，否则为0

3.4 数据增强

Positional Perturbation 位置扰动：即给检测框增加一个噪声
Detection Dropout：随机丢失一些检测框

4.实验

在KITTI和nuScenes表现还不错，具体指标可以看论文。

4.3消融实验

在这里插入图片描述
这个图挺有意思的。通过分布验证了本文提出的基于transformer构建的的特征更适合匹配，第一行使用cosine similarity来度量特征之间的相似性及区别度，可以看到从左到右，及JSD依此增大，同时均值也在增大（0.01,0.91,0.94），同样第二行使用affinity度量，从左到右其JSD也是依此增加（0.68,0.69,0.72）。