多目标跟踪笔迹十三:Learning by tracking Siamese CNN for robust target association

1.Introduce

本文介绍了一种在行人跟踪背景下处理数据关联任务的新方法, 引入了一种两阶段学习方案去匹配“检测对“。首先, 对 Siamese 卷积神经网络 (CNN) 进行了训练, 以学习描述两个输入图像块之间的局部时空结构、聚合像素值和光流信息。其次, 通过梯度提升分类器(gradient boost), 将从比较的输入图像块的位置和大小中导出的一组上下文特征与 CNN 输出相结合, 生成最终的匹配概率。这种学习方法是通过使用基于线性规划的多人跟踪器验证的,该方法符合多人跟踪的最先进标准。(CNN+Gradient Boost)

为了跟踪多人, 逐检测跟踪已成为首选方法。但是作者提出的基于孪生网络的目标跟踪方法思路也比较新颖。从下图可以看出,由N,M两帧得到的检测框,将两个检测对送入孪生网络,加入梯度提升,最终将两帧的各个目标进行配对关联,最终能够实现对单个人的跟踪。(这种孪生网络匹配机制可以很好的用到多目标跟踪)

 

Benefits

作者提出的学习框架主要有两个阶段:

  1. 使用相同大小的图片区域进行孪生CNN网络的训练,来评估图片对的相似性。
  2. 捕捉上下文信息,即将捕获两个感兴趣的图像补丁区域的相对几何和位置的上下文等特征与 CNN 输出相结合, 以生成最终预测。
  3. 最后使用梯度提升算法,构建图将跨帧所有可用的检测值联系起来,并解决了多目标跟踪的标准线性规划(LP)问题。

differ from prior work

  1. 使用 CNN孪生网络, 以估计两个行人检测属于同一跟踪实体的可能性。在提出的 CNN 结构中, 将像素值和光流作为多模态输入进行了组合。
  2. 以准确的成本计算时, 与线性优化模型的数据关联比复杂模型的性能要好
  3. 提出了一种新的跟踪思路(2016)

2.Relate work

运动模型似乎并不是当前跟踪框架中的一个重要瓶颈。总的来说, 更强大的运动模型似乎只在相对较少的情况下有所帮助, 同时再次增加了复杂性。

 

3.Method

method:Learning to associate detections

  1. 基于逐检测跟踪,通过学习一个模型来预测两个检测是否属于同一轨迹来解决数据关联问题。(从行人检测中获得的两个特征入手:时空特征(使用CNN)和上下文特征(两帧检测目标的相对几何和位置变化。))
  2. 使用gradient boost组合前面两个特征生成最终的预测

 

method:CNN for patch similarity

 

本文使用的是c,因为要更好地解决这个目标的相似性问题。使用孪生网络的两个输入共享权重(卷积层),同时处理两帧图像。使用对比损失函数训练孪生网络

其中,anbn为处理每个输入图像的第一层的并行分支的全连接层。

 

Architecture:在上图给出的CNN框架中,输入的四个信息为:目标补丁的像素值I1/I2、光流值O1/O2。这四张图像调整为121x53 的固定大小, 并以深度堆叠, 形成一个多模式的10通道数据 blob D,

其中三个卷积层用于使网络性能提升,四个全连接层用于图像远距离之间特征的相关性和交叉模态依赖关系。最后一个完全连接的层的输出被输入到二进制 softmax。FC6的输出将作为原始的patch匹配特征向量

 

为了减少因为数据过大带来的过拟合,作者们随机添加几何扭曲 (旋转、平移、倾斜、缩放和垂直翻转) 以及图像失真 (高斯模糊、噪声和伽玛)。这些转换独立应用于两个输入补丁中的每一个, 但只允许它们之间的小的相对几何转换 (选择时应用于这两个图像的垂直翻转除外)。

method:Gradient boost

通过孪生CNN网络得到的softmax可以直接用于检测关联,但是准确率会较低,之前没有考虑检测的地点和时间。所以需要一组上下文特征和更高级的分类器来聚合所有得到的信息(前面的softmax,上下文信息等)

 

上下文信息定义为:相对尺寸变化、位置变换、行人间的相对速度

最后通过孪生网络得到的CNN 和上下文信息来训练 GB(gradient boost)分类器

 

Method: Tracking with Linear Programming (data association)

将数据关联转换为图问题,使用线性规划求解。

T*为要得到的轨迹序列Tk,Cin 和 Cout 的成本定义了轨迹开始或结束的可能性。检测成本 Cdet (i) 与检测器给出的检测分数有关(检测分数Si高,检测成本Cdet低)。Ct为分类器估计,仅取决于两个检测 i 和 j 属于相同轨迹的概率。

 

当轨道的总成本为负时, 才会创建轨迹。我们定义检测成本为负, 如果我们确信检测是行人。

 

4.Conclusion

在本文中, 我们提出了一种基于两阶段学习的方法, 在行人跟踪的背景下关联检测。在第一个过程中, 我们创建一个多维输入 blob 堆叠图像和光流信息从两个补丁去比较;这些数据表示允许之后的孪生卷积神经网络学习相关的时空特征, 从而区分这两个行人检测是否属于同一跟踪实体。通过梯度提升分类器实现统一预测, 将这些局部特征与一些上下文特征合并。为了突出所提出的检测关联技术的效率, 我们使用改进的基于线性规划的跟踪器 [64] 来链接所提出的轨迹。我们观察到, 一个带有准确信息的简单线性规划跟踪器比其他更复杂的方法具有可比的性能。这一领域的未来研究涉及将拟议的方法应用于更通用的目标跟踪, 利用已经训练过的模型, 并扩展第二阶段分类器, 以处理更复杂的上下文特征。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值