【paper】Multiple Object Forecasting: Predicting Future Object Locations in Diverse Environments

最新推荐文章于 2024-09-15 15:29:29 发布

芒果太甜

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量326

点赞数

分类专栏：论文文章标签：人工智能计算机视觉算法

本文链接：https://blog.csdn.net/zzj__/article/details/118095756

版权

论文专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Multiple Object Forecasting: Predicting Future Object Locations in Diverse Environments. WACV 2020

在这里插入图片描述

pdf
github
video
作者相关前作：https://arxiv.org/pdf/1905.03681.pdf
https://www.youtube.com/watch?v=jUTQyUjeynE

这篇paper主要是研究如何在已知前30帧(前1秒)图像中目标的bbox后，预测出后60帧(后2秒)图像中目标可能的bbox变化轨迹。作者将这个问题定义为Multiple Object Forecasting(MOF)问题，以对应tracking中的多目标跟踪Multiple Object Tracking(MOT)。按照作者的描述，本文的贡献在于：

提出了MOF概念
提出了公开数据集CityWalks（针对MOF问题而采集，比已有的相关数据集更加多样性）
提出了STED算法，一种Spatial-Temporal Encoder-Decoder模型，结合了视觉特征和时域特征。

base introduction

Citywalks数据集介绍:
由501个20s的video clips组成，其中358个视频中至少包含1条有效的行人轨迹。
预处理：分别使用Yolov3 和 Mask-RCNN方法来对视频中的目标进行detection，再使用DeepSORT算法来对行人进行跟踪。作者给出了以下信息数据：vid,filename,frame_num,track,cx,cy,w,h,track_length,labeled,requires_features

其中labelled表示该帧是否被标注（1标注，0未被标注）。具体来说，如果在当前帧一个轨迹被标注了，那么它至少需要有29帧之前被track的帧，同时还要至少有60帧后续被track的帧，即当前行人至少要被连续的track3s。
requires_features表示该帧是否需要提取特征（1需要，0不需要）。所有被标注的帧以及之前的29帧都需要提取特征，这是为了在解决MOF预测问题时，能够使用到这30帧的历史运动信息。
数据集划分：
作者将其划分为3个fold，每个fold都包含train，validation和test3个部分。
评测标准：
ADE
FDE
AIOU
FIOU

pipeline

在这里插入图片描述

Encoder部分：历史bbox信息和速度信息，历史光流信息分别送入GRU和CNN模型后，经过FC全连接层后分别得到一个256d的 $\phi_b$ 和2048d的 $\phi_f$ ，将其concat到一起后得到最终的 $\phi_c$
Decoder部分：GRU-2部分的输入为前面的 $\phi_c$ 和隐变量，后经过一个全连接层输出未来的bbox预测。

实验部分

实现细节
1. 历史光流信息是由训练好的网络提取得到的，维度为2048d
2. decoder网络输出的4维结果是相对速度下的结果，最后还要和固定速度相减，得到最终输出
3. 网络输出后60帧中每一帧中的运动结果，是通过GRU网络循环运算60次得到的，将最后的结果reshape成240d的结果，并与labels进行loss计算
实验结果

在这里插入图片描述