SiamMask: Fast Online Object Tracking and Segmentation
这篇文章是CVPR2019的一篇关于目标跟踪及分割的文章,论文作者团队来自中科院自动化所、牛津大学、Five AI公司。
论文:https://arxiv.org/abs/1812.05050
Github:https://github.com/foolwood/SiamMask
项目网站:http://www.robots.ox.ac.uk/~qwang/SiamMask/
摘要:
在这篇文章中,作者提出了一个简单的模型,可以同时实现视频目标跟踪和视频目标分割这两个任务,并能达到实时的效果。文章提出的模型叫SiamMask,该模型通过在用于目标跟踪的全卷积孪生神经网络上增加mask分支来实现目标的分割,同时增强网络的loss,优化网络。一旦网络训练好之后,SiamMask仅依赖于初始的一个bounding box就可以实现类别无关的目标实时跟踪及分割(at 35 frames per second)。文章提出的模型不仅只是简单、功能多样以及速度快,其效果也超过了VOT-2018的其他实时跟踪网络,在目标跟踪领域建立了新的state of the art。同时,还在DAVIS-2016, DAVIS-2017视频分割数据集上取得了具有竞争力的表现和最快的速度。
1.引言
目标跟踪有很多应用,比如自动监控、车辆导航、视频标注等。以往的目标跟踪方法通常只能预测出一个跟踪物体的矩形框,也有一些做视频目标分割的方法可以对目标进行分割,但是这些方法在使用时都需要给出第一帧的分割mask。而文章提出的模型,在infernce阶段,只需要在开始时框出目标物体,就可以对目标进行自动的跟踪以及分割。效果如下图:
2.相关工作
1,为了实现这一目标,我们同时训练一个暹罗网络完成三个任务,每个任务对应一个不同的策略,在新框架中建立目标对象和候选区域之间的对应关系。
其中一项任务是以滑动窗口的方式学习目标对象和多个候选对象之间的相似性度量。输出是一个密集的response map,它只指示对象的位置,而不提供关于其空间范围的任何信息。为了提炼这一信息,我们同时学习了两项进一步的任务:使用区域建议网络(Region Proposal Network)进行边界框后悔(box regres- sion)和类无关的二进制分割。
二进制标签在离线追踪时计算分割的损失,并非在线跟踪,本文呢的方法中每一个任务都有不同的分支表示由一个共享的rpn网络,并且有不同的损失。
一旦经过训练,SiamMask只依赖于一个绑定框的初始化,在线操作,不需要更新,并以每秒55帧的速度生成对象分割掩码和旋转绑定框。都是一种半监督的方法。是经过简单的方法实现的也没经过微调和数据增强以及光流法的技术。
2,