多目标追踪笔记七：Real-Time Recurrent Regression Networks for Visual Tracking of Generic Objects

最新推荐文章于 2023-11-20 00:01:38 发布

ronales

最新推荐文章于 2023-11-20 00:01:38 发布

阅读量1.1k

点赞数

分类专栏：目标跟踪文章标签： MOT

本文链接：https://blog.csdn.net/ycc2011/article/details/86003978

版权

目标跟踪专栏收录该内容

21 篇文章 42 订阅

订阅专栏

1.提出：第一个展示使用递归神经网络在视频中成功跟踪的论文。（该论文相当于是在GOTURNhttps://blog.csdn.net/autocyz/article/details/52648776的基础上的改进）

PS:目前该论文较适合单目标跟踪，多目标跟踪自己试了下，效果不太好，尤其是在复杂光照环境下导致的问题较多。

被跟踪目标的外观、运动以及它是如何随着时间的推移而变化的是目标跟踪所要面对的问题。RE3为一个实时深度对象跟踪器，能够将时间信息加入模型中，作者在各类对象上预先训练通用跟踪器模型，在运行过程中快速的更新信息。此追踪器利用单个正向传播和更新外观模型来跟踪目标（在跟踪过程中，不会进行反向传播来更新网络），能够达到150FPS的速度。同时该模型在短时间的遮挡问题上取得不错的效果。

PS：虽然不进行反向传播，网络依然是不断update的，因为RNN自身的结构，状态c是在前向传播的过程更新的，即不断接受当前的信息。这里说明一下，反向传播更新的是网络中的权值W，所以Re3网络里，权值不会在线更新。

2.与前面工作不同的地方

目前采用的tracking by detection 算法的缺点是需要大量的时间和计算资源。若针对给定的目标进行离线实现跟踪，可能在速度上会有很大提升。

所以作者提出了一种实时的基于循环递归神经网络的通用对象追踪模型，来解决上述那些缺点。但RE3不是通过在线微调网络参数或者固定网络来进行目标追踪，而是在递归循环网络中学习和存储相关目标特征信息，不需要重复训练。

作者通过整合大量图像和视频集合的信息，使网络能够学习生成可捕捉目标重要信息的表现，使网络能够学习到追踪目标根据时间推移而变化的情况。而目前目标跟踪分为三类（online-trained, offline trained,and hybrid trackers）；所以该论文属于offline trained方法。(给定初使帧的目标位置，在后续跟踪过程不去采取任何干涉)
3.具体方法（CNN+两个LSTM）

网络结构包括三层：

1）含有目标外观的卷积层；2）用于记住外观和运动信息的递归层和3）输出目标位置的全连接层。

训练好递归神经网络的参数后，根据递归神经网络的时序性来进行前向传递更新目标的外观和运动模型，这样相对于之前的在线模型来说不会花费额外的计算成本。
对象外观嵌入：
对于视频的每个帧, 跟踪器必须定位对象并更新其内部状态, 以便在将来的帧中继续跟踪。相比于原来使用手工制作从对象像素提取外观信息，作者选择直接通过卷积pipeline来学习特征提取，使用此卷积pipeline能够在大数据上进行端到端的训练。

网络输入：作者采用前后两帧（一组图像）的裁减过的图像作为网络的网络输入；网络可以直接比较两个帧中的差异，从而了解到运动如何影响图像像素。

CNN：卷积神经网络用于提取图像的外观特征

Skip Connections：在这部分，作者将这一组图像的的低（目标边缘信息）、中、高（目标的鼻子、耳朵）外观特征进行结合；再将其送入LSTM中；以使网络具有更丰富的外观模型；网络就能区分一个穿红色 (低级概念) 衬衫的人和穿蓝色衬衫的人。

两个LSTM：第一个LSTM用于学习物体的运动特征（motion），第二个LSTM用于做目标位置的回归预测（regression）（对角坐标）。

网络输出：输出值为位置预测坐标值。

可以很显然看出，通过前面两帧（i-1，i）的图像外观表现（CNN）和运动特征（LSTM），最后使用LSTM来回归得到位置信息，即第i帧的目标位置；再将其与下一帧(i+1)的目标经过CNN+LSTM，循环往复得到预测追踪结果。

4.总结（参考：https://blog.csdn.net/whfshuaisi/article/details/72599104）

结合外观（appearance）和运动（motion）信息来处理跟踪问题是一直都有的。Action recogniton/Video recogniton方向已经考虑过特征的融合，即时空信息。所以，跟踪领域其实有很多地方可以参考它们。主要是如何将时空信息融合进跟踪网络，既能保证准确率，又能达到一定的速度。该篇论文也给出了（在前向传播时即更新学习motion特征，而不进行反向传播。）的一个思路。

PS：导致深度学习算法速度慢的一个重要原因是online-update，即更新过程中的反向传播。那么，于是就人提出，是否可以不进行在线更新呢？而只在线下训练，测试时只进行前向的一次传递，这样的速度是很快的。

ronales

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
多目标追踪笔记七：Real-Time Recurrent Regression Networks for Visual Tracking of Generic Objects

1.提出：第一个展示使用递归神经网络在视频中成功跟踪的论文。（该论文相当于是在GOTURNhttps://blog.csdn.net/autocyz/article/details/52648776的基础上的改进）PS:目前该论文较适合单目标跟踪，多目标跟踪自己试了下，效果不太好，尤其是在复杂光照环境下导致的问题较多。被跟踪目标的外观、运动以及它是如何随着时间的推移而变化的是目标跟踪所要面...
复制链接

扫一扫