【paper】Multiple Object Forecasting: Predicting Future Object Locations in Diverse Environments

Multiple Object Forecasting: Predicting Future Object Locations in Diverse Environments. WACV 2020

在这里插入图片描述

  • pdf
  • github
  • video
  • 作者相关前作:https://arxiv.org/pdf/1905.03681.pdf
  • https://www.youtube.com/watch?v=jUTQyUjeynE

这篇paper主要是研究如何在已知前30帧(前1秒)图像中目标的bbox后,预测出后60帧(后2秒)图像中目标可能的bbox变化轨迹。作者将这个问题定义为Multiple Object Forecasting(MOF)问题,以对应tracking中的多目标跟踪Multiple Object Tracking(MOT)。按照作者的描述,本文的贡献在于:

  • 提出了MOF概念
  • 提出了公开数据集CityWalks(针对MOF问题而采集,比已有的相关数据集更加多样性)
  • 提出了STED算法,一种Spatial-Temporal Encoder-Decoder模型,结合了视觉特征和时域特征。

base introduction

  • Citywalks数据集介绍:
    由501个20s的video clips组成,其中358个视频中至少包含1条有效的行人轨迹。
    预处理:分别使用Yolov3 和 Mask-RCNN方法来对视频中的目标进行detection,再使用DeepSORT算法来对行人进行跟踪。作者给出了以下信息数据:vid,filename,frame_num,track,cx,cy,w,h,track_length,labeled,requires_features
    分别表示video名称,录制城市名称,第几帧,track id,bbox表达,跟踪长度,是否被标记,是否需要提取特征
    其中labelled表示该帧是否被标注(1标注,0未被标注)。具体来说,如果在当前帧一个轨迹被标注了,那么它至少需要有29帧之前被track的帧,同时还要至少有60帧后续被track的帧,即当前行人至少要被连续的track3s。
    requires_features表示该帧是否需要提取特征(1需要,0不需要)。所有被标注的帧以及之前的29帧都需要提取特征,这是为了在解决MOF预测问题时,能够使用到这30帧的历史运动信息。

  • 数据集划分:
    作者将其划分为3个fold,每个fold都包含train,validation和test3个部分。
    在这里插入图片描述

  • 评测标准:
    ADE
    FDE
    AIOU
    FIOU

pipeline

在这里插入图片描述

  • Encoder部分:历史bbox信息和速度信息,历史光流信息分别送入GRU和CNN模型后,经过FC全连接层后分别得到一个256d的 ϕ b \phi_b ϕb和2048d的 ϕ f \phi_f ϕf,将其concat到一起后得到最终的 ϕ c \phi_c ϕc
  • Decoder部分:GRU-2部分的输入为前面的 ϕ c \phi_c ϕc和隐变量,后经过一个全连接层输出未来的bbox预测。

实验部分

  • 实现细节
    1. 历史光流信息是由训练好的网络提取得到的,维度为2048d
    2. decoder网络输出的4维结果是相对速度下的结果,最后还要和固定速度相减,得到最终输出
    3. 网络输出后60帧中每一帧中的运动结果,是通过GRU网络循环运算60次得到的,将最后的结果reshape成240d的结果,并与labels进行loss计算

  • 实验结果

在这里插入图片描述

总结

文章的思路比较简单直接,数据集的采集和特征提取是一个很大的工作量,应该还有后续改进空间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值