Multiple Object Forecasting: Predicting Future Object Locations in Diverse Environments. WACV 2020
- github
- video
- 作者相关前作:https://arxiv.org/pdf/1905.03681.pdf
- https://www.youtube.com/watch?v=jUTQyUjeynE
这篇paper主要是研究如何在已知前30帧(前1秒)图像中目标的bbox后,预测出后60帧(后2秒)图像中目标可能的bbox变化轨迹。作者将这个问题定义为Multiple Object Forecasting(MOF)问题,以对应tracking中的多目标跟踪Multiple Object Tracking(MOT)。按照作者的描述,本文的贡献在于:
- 提出了MOF概念
- 提出了公开数据集CityWalks(针对MOF问题而采集,比已有的相关数据集更加多样性)
- 提出了STED算法,一种Spatial-Temporal Encoder-Decoder模型,结合了视觉特征和时域特征。
base introduction
-
Citywalks数据集介绍:
由501个20s的video clips组成,其中358个视频中至少包含1条有效的行人轨迹。
预处理:分别使用Yolov3 和 Mask-RCNN方法来对视频中的目标进行detection,再使用DeepSORT算法来对行人进行跟踪。作者给出了以下信息数据:vid,filename,frame_num,track,cx,cy,w,h,track_length,labeled,requires_features
其中labelled表示该帧是否被标注(1标注,0未被标注)。具体来说,如果在当前帧一个轨迹被标注了,那么它至少需要有29帧之前被track的帧,同时还要至少有60帧后续被track的帧,即当前行人至少要被连续的track3s。
requires_features表示该帧是否需要提取特征(1需要,0不需要)。所有被标注的帧以及之前的29帧都需要提取特征,这是为了在解决MOF预测问题时,能够使用到这30帧的历史运动信息。 -
数据集划分:
作者将其划分为3个fold,每个fold都包含train,validation和test3个部分。
-
评测标准:
ADE
FDE
AIOU
FIOU
pipeline
- Encoder部分:历史bbox信息和速度信息,历史光流信息分别送入GRU和CNN模型后,经过FC全连接层后分别得到一个256d的 ϕ b \phi_b ϕb和2048d的 ϕ f \phi_f ϕf,将其concat到一起后得到最终的 ϕ c \phi_c ϕc
- Decoder部分:GRU-2部分的输入为前面的 ϕ c \phi_c ϕc和隐变量,后经过一个全连接层输出未来的bbox预测。
实验部分
-
实现细节
1. 历史光流信息是由训练好的网络提取得到的,维度为2048d
2. decoder网络输出的4维结果是相对速度下的结果,最后还要和固定速度相减,得到最终输出
3. 网络输出后60帧中每一帧中的运动结果,是通过GRU网络循环运算60次得到的,将最后的结果reshape成240d的结果,并与labels进行loss计算 -
实验结果
总结
文章的思路比较简单直接,数据集的采集和特征提取是一个很大的工作量,应该还有后续改进空间。