CVPR2020 MOT TubeTK论文解读

Matorch

已于 2022-03-29 09:14:47 修改

阅读量1.6k

点赞数 4

分类专栏：论文阅读文章标签： python deep learning computer vision 目标跟踪 tracker

于 2021-10-22 00:25:46 首次发布

本文链接：https://blog.csdn.net/weixin_43913124/article/details/120873370

版权

论文阅读专栏收录该内容

11 篇文章

订阅专栏

CVPR2020 Oral TubeTK:Adopting Tubes to Track Multi-Object in a One-Step Training Model

链接
摘要
一、文章贡献(创新点)
二、具体实现
三、总结

链接

论文地址：https://arxiv.org/pdf/2006.05683.pdf
代码：https://github.com/BoPang1996/TubeTK

摘要

Multi-object tracking is a fundamental vision problem that has been studied for a long time. As deep learning brings excellent performances to object detection algorithms, Tracking by Detection (TBD) has become the mainstream tracking framework. Despite the success of TBD, this two-step method is too complicated to train in an end-to-end manner and induces many challenges as well, such as insufficient exploration of video spatial temporal information, vulnerability when facing object occlusion, and excessive reliance on detection results. To address these challenges, we propose a concise end-to-end model TubeTK which only needs one step training by introducing the “bounding-tube” to indicate temporal-spatial locations of objects in a short video clip. TubeTK provides a novel direction of multi-object tracking, and we demonstrate its potential to solve the above challenges without bells and whistles. We analyze the performance of TubeTK on several MOT benchmarks and provide empirical evidence to show that TubeTK has the ability to overcome occlusions to some extent without any ancillary technologies like ReID. Compared with other methods that adopt private detection results, our one-stage end-to-end model achieves state-of-the-art performances even if it adopts no readymade detection results. We hope that the proposed TubeTK model can serve as a simple but strong alternative for videobased MOT task.

TBD(Tracking by detection)的两阶段范式虽然成为主流的框架，但由于两阶段的方式过于复杂，且无法端到端的训练，同时两阶段算法会引入视频时空信息的缺失，面对物体遮挡时过度依赖检测结果(两阶段算法进行目标匹配的关键之一就是必须得先有目标才能匹配，因此如果检测器算法性能不好，在人物被遮挡时无法检测出来，目标就会丢失，无法跟踪)。本文提出一种端到端的模型TubeTK，只需一步训练即可，方法为引入Btube(bounding-bute; 边界管)的概念来表示视频片段中待跟踪目标的时空位置。文中提到TubeTK方法具有有效克服目标遮挡的能力，且无需使用额外的Re-ID技术。

一、文章贡献(创新点)

算法输入为短视频序列，利用3D-ResNet50和3D卷积模块，构建视频中的时空信息。
采用FCOS结构，将其扩展到3D卷积中，预测Btube结构。该网络由Backbone、FPN、多尺度头构成。多尺度头负责不同尺度的目标，3D网络直接预测Btube。
实现了不同于CenterTrack、Tracktor、ChainedTracker的另一种端到端跟踪模型。

二、具体实现

1. Btube定义

def_Btube

Btube是文中提出的一个网络输出方法。一个Btube可看作 $t_s,t_m,t_e]$ 三个视频帧中的其中一个目标的边界框 $B_s,B_m,B_e]$ 的集合，其中边界框 $B_*$ 又包含 $x_s^1,y_s^1);(x_s^2,y_s^2)]$ 的空间位置。之后可通过类似于线性插值的方法生成Btube。因此对于一个Btube，包含十五个自由度，Btube参数如下

$\left\{ [t_s,x_s^1,y_s^1,x_s^2,y_s^2]; [t_m,x_m^1,y_m^1,x_m^2,y_m^2]; [t_e,x_e^1,y_e^1;x_e^2,y_e^2] \right\}$

$\color{red}{思考：}$
对比Bbox和Btube：通常目标检测算法预测目标的框回归一般为目标的 $[x, y, w, h]$ 的各种变形，共计4个参数，但Btube预测了当前目标Bm的参数，同时还输出第 $t_m$ 帧之前的第 $t_s$ 帧目标框 $B_s$ ，输出第 $t_m$ 帧之后的第 $t_e$ 帧目标框 $B_e$ ，共计15个参数。

在这里插入图片描述

Bounding-box黄色框表示，在没有时间信息的情况下，很难只通过空间框检测出被严重遮挡的目标（框在图像中的位置代表了空间信息；框在整个视频序列中的位置代表了时间信息，一般的只对单帧图像预测目标框的方法未引入时间信息）。Bounding-tube则根据时空特征生成边界管，该边界管同时对目标的空间位置和移动轨迹编码，进而引出TubeTK方法，在面对遮挡时更加鲁棒。

2. 网络结构

通过采用滑动窗口方案，该模型可以在线跟踪。网络由Backbone、FPN、和多尺度的任务头网络组成，总体上就是FCOS的变形，以3D-ResNet作为骨干特征提取网络，后接特征金字塔，对于分类、回归、中心度等多个任务设置任务头。一个3D版本的backbone、一个3D版本的FPN和3D卷积，输入为一段短视频序列，输出为具有多个尺度的基本时空特征组 $\left\{G^i \right\}$ 。这里给出FCOS论文中的网络结构图，如图所示。
fcos

3dfcos

可以看出TubeTK网络结构基本和FCOS结构一致。只是改成了3D卷积，为了处理视频序列，得到时空信息。

3. 预测头

每个预测头网络都会生成三个输出图：置信图、回归图和中心度图，与FCOS仍然一致，这三个图的大小相同。模型置信度图反映了是否是行人的分数；回归图需要回归相对的时间和空间位置；中心度图保证边框不过分偏移。

4. 训练

4.1 生成GroundTruth

make_GT

给定视频 $V$ 相应的真实轨迹，以滑动窗口的方式将它们切成短片段。
将GT轨迹分割成Btube，同时通过IOU阈值保证Btube和原GT足够的贴合，以作为训练时的GT使用。
将Btube转换成和网络输出相同的形式，用于训练，如图所示。

将Btube位置回归14个值：当前帧 $B_m$ 的四个 $l_m,t_m,r_m,b_m]$ ， $B_s$ 的四个 $l_s,t_s,r_s,b_s]$ ， $B_e$ 的四个 $l_e,t_e,r_e,b_e]$ ，以及 $B_m$ 离过去帧 $B_s$ 和未来帧 $B_e$ 管长两个 $d_s,d_e]$ 。

4.2 train and test

train_test

同GT的滑动窗口法一致，对视频序列切片，送入网络。
经过主干网络提取特征。
经过特征金字塔提取不同尺度的特征。
生成多个预测头。
Train： 训练的时候，对Btube 回归(reg)采用GIOU loss(计算体积)，对分类(cls)采用Focal loss，对中心度(cent)采用Binary Cross Entropy。
Test： 预测的时候，对于输出的前后的两个Btube，采用3DNMS改进为2D的方法，设置两个阈值 $\gamma^1$ 和 $\gamma^2$ ，当 $IOU(B_m^{(1)},B_m^{(2)})>\gamma^1\&IOU(B_{s^{'}}^{(1)},B_{s^{'}}^{(2)})>\gamma^2\&IOU(B_{e^{'}}^{(1)},B_{e^{'}}^{(2)})>\gamma^2$ ，其中 $s^{'}=max(s^{(1)},s^{(2)})$ ， $e^{'}=min(e^{(1)},e^{(2)})$ ， $B_{s^{'}}$ 通过线性插值生成。主要就是保证两个Btube在关联时的体积重叠率足够高，可认为在空间和时间上属于同一目标。