【论文阅读笔记】InterTrack: Interaction Transformer for 3D Multi-Object Tracking

0.创新点

  • 使用Interaction Transformer来生成具有显著区别的目标特征
  • 设计了一种以端到端方式估计轨迹/检测亲和力的新方法,通过注意力机制来聚合上下文目标的状态和形状特征,最终回归出affinity scores.
  • 引入了重复轨迹删除策略,就是通过3DIoU来删除重复的轨迹
  • 在nuScenes数据集中针对所有使用CenterPoint检测器的方法中获得了第一名

1.Introduction

  1. For effective association, features should be discriminative such that feature comparison results in accurate affinity estimation 指出特征应该是有区别的,可以用于准确匹配的
  2. Independent methods, however, tend to suffer from high feature similarity, particularly for densely clustered objects (see Figure 1).指出在密集场景所提取到的特征往往是具有相似性的(潜台词就是这些特征不能用于很好的匹配)
  3. We argue all interactions are important, as for example, short range interactions can be helpful for differentiating objects in dense clusters, while long range interactions can assist with fast-moving objects with large motion changes.认为特征交互很重要

2.Related Work

从Transformer、Image Feature Matching、Multi-Object Tracking进行总结

InterTrack directly address the limitation of interaction modeling for data association, by introducing the Interaction Transformer to 3D MOT. Doing so allows for complete interaction modeling, leading to improved object feature discrimination. InterTrack only leverages the Transformer for data association to provide an interpretable solution for safety-critical applications in autonomous vehicles. 通过Interaction Transformer来构建有区别性的特征并仅使用transformer进行匹配

3.Methodology

整体框架图
在这里插入图片描述
(1)将上一帧的轨迹及上一帧的原始点云送入到特征提取器中特征上一帧轨迹的特征
(2)将当前帧检测及当前帧原始点云送入到特征提取器中特征当前帧检测的特征
(3)将检测和和轨迹的特征送入的Interaction Transformer模块进行特征交互
(4)将交互的特征送入Affinity Head模块产生 Affinity Matrix(即用于匹配的代价矩阵)

3.1Affinity Learning

  • Object Feature Extractor(特征提取器)
    在这里插入图片描述
    包含两类特征:状态特征(State Features)和形状特征(Shape Features)

    • 状态特征(State Features)
      状态特征包括(x, y, z, l, w, h, θ, ̇x, ̇y, c, s)11维向量,通过State Layers获取
    • 形状特征(Shape Features)
      采用SECOND网络提取,产生BEV features

    然后将状态特征(State Features)投影到BEV网格中,使用ROI Align来提取相应目标的形状特征,然后将两类特征进行拼接(concat)

  • Interaction Transformer(特征交互机制)
    包含self和cross attention
    首先将得到的检测和轨迹的特征各自进行self-attention,然后再进行crosss-attention,具体结构如下图所示:
    在这里插入图片描述
    对于self-attention而言,figure3中的A和B是一样的(无论对于检测或是轨迹),而对于cross-attention,A和B分别为检测和轨迹(或轨迹和检测)的特征,即轨迹和检测之间的特征进行交互。其中self-attention仅交互一帧的信息,可以理解学习上一帧轨迹的空间位置信息,而cross-attention学习不同帧之间的时间信息(上一帧与当前帧)

3.2 3D Tracking

输入包括2D和3D检测,然后采用EagerMOT两阶段的方式进行跟踪。

  • 第一阶段的匹配:将上一帧所有的轨迹与当前帧所有的3D检测进行匹配,代价矩阵为学习到的 A t A_t At,然后使用匈牙利匹配,并且使用EagerMOT中的scaled Euclidean distance过滤掉不满足要求的匹配对
  • 第二阶段的匹配:将所有在第一阶段未匹配上的轨迹投影到图像平面与在融合阶段没有3D检测与之融合的2D检测通过IoU进行匹配。
  • Track Prediction/Update:抛弃了卡尔曼滤波而是采用CenterPoint的方式进行预测,即直接通过恒速模型对轨迹状态进行预测,若匹配上了,则直接用当前帧的检测状态替换轨迹预测的状态
  • Track Overlap Rejection:这里考虑的目的在于检测器在进行NMS处理时并没有完全过滤掉重复的检测,这就导致新的检测在初始化为轨迹时可能就是一条已经存在的轨迹。本文将轨迹之间计算IoU,大于阈值的认为是重复轨迹,则去除帧数较少的那个轨迹

3.3 损失计算

在这里插入图片描述
A ^ t \widehat{A}_t A t为GT,通过将当前帧检测与上一帧GT轨迹计算3D IoU获得,匹配正确的 A ^ t = 1 \widehat{A}_t=1 A t=1,否则为0

3.4 数据增强

  • Positional Perturbation 位置扰动:即给检测框增加一个噪声
  • Detection Dropout:随机丢失一些检测框

4.实验

在KITTI和nuScenes表现还不错,具体指标可以看论文。

4.3消融实验

在这里插入图片描述
这个图挺有意思的。通过分布验证了本文提出的基于transformer构建的的特征更适合匹配,第一行使用cosine similarity来度量特征之间的相似性及区别度,可以看到从左到右,及JSD依此增大,同时均值也在增大(0.01,0.91,0.94),同样第二行使用affinity度量,从左到右其JSD也是依此增加(0.68,0.69,0.72)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值