MAT: Motion-Aware Multi-Object Tracking 论文阅读

摘要

1.相机运动等问题带来的小目标跟踪挑战

2.reid方法存在的问题:缺乏时空约束导致不能解决遮挡和模糊物体的假阴性

3.提出关键词:motion pattern。结合两种运动

(附:刚性摄像机运动是指摄像机本身的运动,它可能导致整个场景的移动和变化。非刚性行人运动是指场景内人或物体的运动,可能更加复杂和多样)

4.引入3D积分模块减少无用的时空约束下的track-detection连接

这篇摘要思路明确:前两句写问题,中间写创新点,最后写性能

Introduction

第一段:depend on detection的问题:必须具有较好的可见性(遮挡处理不好),不关注时序

第二段:介绍detection主导的方法及其问题,转到reid方法可以解决这些问题,但仍然不能解决“复杂或低分辨率场景中判别性较差,如部分检测、噪声行人干扰、模糊或相似外观、缺乏时空匹配约束等”问题

//思考:从人类主观的角度出发,为什么我们看一段视频可以分辨出不同的行人并跟踪?我们会考虑A,B两个人的相对空间关系,考虑个体的时间关系,因此我们可以区别相似特征的行人,而REID只能考虑外观特征信息,如果两个模糊的人衣服穿得差不多,就很难分辨了。//

第三段:介绍组成的三个模块

1 IML,用于非刚性行人运动和刚性摄像头运动的联合预测

2 DRC,根据估计的个体速度和自定义的相机运动强度,为不同目标动态确定基于运动的重连窗口

3 3DII,在数据关联阶段有效地消除轨道和检测之间不必要的连接

Method

先看图1 ,

//思考:ROI pooling与transformer encoder的区别?能不能用encoder取得更好的效果?//

IML:

在卡尔曼滤波器上加一个ECC对齐

DRC:

分为两部分

动态重连

算重连长度(多少帧范围内考虑重连)

公式(2):突出显示的文本显示了一个方程,用于计算名为 L_rec 的变量的值。此变量表示跟踪组因遮挡或模糊而丢失后重新连接的可能性。该方程考虑了两个因素:相机运动和物体运动。

第一个因素由变量 I_Cam 表示,该变量用于测量摄像机运动的强度。I_Cam 的值越高,重新连接 tracklet 的难度就越大。第二个因子由变量 V_Box 表示,该变量测量被跟踪物体的速度。速度越高,重新连接轨道就越容易。

该方程还包括两个常数:L_max 和 alpha。L_max 表示重新连接的最大可能性,而 alpha 是平衡计算中摄像机运动和物体运动重要性的权重。

总体而言,该方程表明,随着摄像机运动的增加和物体运动的减少,重新连接的可能性会降低。这是有道理的,因为相机运动会导致物体外观发生显著变化,而缓慢移动的物体更有可能被完全遮挡或模糊。

填充

该策略用于平滑集成运动定位 (IML) 模型的预测,以填充跟踪片段。当轨迹在 A 点中断并在点 B 通过轨迹检测关联重新连接时,使用此策略。

该战略包括三个步骤。第一步是线性初始化,它使用线性插值算法为点 A 和 B 之间的所有帧生成初始方框,位置和比例均匀变化。第二步是向前 IML 更新,它使用在第一步中获得的初始方框作为伪观测值,在 A 点逐帧更新经过训练的 IML 模型,直到 B 点。第三步是向后 IML 更新,在点 B 之后使用轨迹组的几帧向后训练一个新的 IML 模型,并将第二步中获得的预测作为伪观测值,逐帧向后更新已训练的 IML 模型,直到点 B 点 A.

(类似神经网络的初始化-前向计算-反向传播)

在这三个步骤之后,使用最终更正的预测来填写跟踪片段。该策略旨在平滑对IML模型的非线性预测,即使出现中断或遮挡,也可以更准确地跟踪物体。事实证明,该策略在具有挑战性的基准测试中是有效的。

3D积分图像

每个det量化一张图,覆盖范围为1,未覆盖为0

更新每个点为小于该点坐标的点求和(即积分)

根据track的坐标来计算如下图的值,为零则认为关联没有必要存在,cut

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值