SiamMask论文翻译

SiamMask是基于全卷积的暹罗网络的多任务学习方法,用于实时对象跟踪和视频对象分割。它能从单个边界框初始化,以55fps的速度生成分割掩码和旋转边界框,同时在VOT-2018、DAVIS-2016和DAVIS-2017基准上表现优越。
摘要由CSDN通过智能技术生成

1. introduction

在任何需要对目标物体进行某种程度推理的视频应用中,跟踪都是一项基本任务,因为它允许在帧之间建立物体对应关系[34]。 它可用于各种场景,例如自动监视,车辆导航,视频标签,人机交互和活动识别。视觉对象跟踪的目的是在给定视频第一帧中任意感兴趣目标的位置后,以尽可能最佳的精度估计其在所有后续帧中的位置 。

对于许多应用程序而言,在视频流传输时可以在线进行跟踪非常重要。 换句话说,跟踪器不应利用将来的帧来推断物体的当前位置[26]。 这是视觉对象跟踪基准所描绘的场景,该基准代表具有简单轴对齐(例如[56,52])或旋转[26,27]边界框的目标对象。 这样简单的注释有助于保持较低的数据标记成本。 此外,它还允许用户执行目标的快速、简单初始化。

与对象跟踪类似,半监督视频对象分割(VOS)的任务需要估计在视频的第一帧中指定的任意目标的位置。 但是,在这种情况下,对象表示由二进制分割掩码组成,该掩码表示像素是否属于目标[40]。 对于需要像素级信息的应用程序,如视频编辑[38]和旋转摄影[37],这种详细表示更为理想。 可以理解,与简单的生成边界框相比,生成像素级估计需要更多的计算资源。 结果,VOS方法传统上很慢,通常每帧需要几秒钟的时间(例如[55、50、39、1])。 最近,人们对更快的方法产生了兴趣[59、36、57、8、7、22、21]。 但是,即使最快的仍然无法实时运行。

在本文中,我们旨在通过提出SiamMask(一种可用于解决这两个问题的简单多任务学习方法)来缩小任意对象跟踪与VOS之间的差距。基于完全卷积的暹罗网络[3]的快速跟踪方法的成功,以及对数百万对视频帧(例如[28、63、15、60])的离线训练,以及基于YouTube- VOS [58],一个具有逐像素注释的大型视频数据集。我们旨在保留这些方法的离线可训练性和在线速度,同时显着改善其对目标对象的表示,这仅限于简单的轴对齐边界框。

为了实现此目标,我们同时在三个任务上训练了一个暹罗(fully convolutional Siamese)网络,每个任务都对应一种不同的策略,以在新框架中建立目标对象与候选区域之间的对应关系。与Bertinetto等人的全卷积方法一样。 [3],一项任务是学习衡量目标之间的相似度对象和多个候选对象以滑动窗口的方式输出。输出是一个密集的响应图,仅指示对象的位置,而没有提供有关其空间范围的任何信息。为了完善此信息,我们同时学习了另外两个任务:使用区域提议网络[46,28]进行边界框回归和分类不可知的二进制分割[43]。值得注意的是,二进制标签仅在离线培训期间才需要计算分割损失(segmentation loss ),而在细分/跟踪过程中则不需要在线。在我们提出的体系结构中,每个任务都由一个不同的分支来代表,该分支与共享的CNN背道而驰,将三个输出相加,得到最终的损失。

经过培训后,SiamMask仅依靠单个边界框初始化,无需更新即可在线运行,并以每秒55帧的速度生成对象分割蒙版和旋转的边界框。 SiamMask尽管简单易行,但速度很快,它针对实时对象跟踪问题在VOT-2018上建立了新的技术水平。 而且,相同的方法比最近在DAVIS-2016和DAVIS-2017上采用半监督VOS的方法更好,同时速度也是最快的。 通过简单的边界框初始化(而不是掩码)即可获得此结果,而无需采用VOS方法经常使用的昂贵技术,例如微调[35,39,1,53],数据增强[23,30]和 光流[50、1、39、30、8]。

本文的其余部分组织如下。 第2节简要概述了视觉对象跟踪和半监督VOS中最相关的现有工作; 第三节描述我们的方法; 第4节以四个基准对它进行了评估,并举例说明了一些烧蚀研究。 第五部分总结全文。

2. Related Work

在本节中,我们简要介绍了针对本文所解决的两个问题的最具代表性的技术。视觉对象跟踪。 可以说,直到最近,用于跟踪任意对象的最流行的范例是仅根据视频第一帧中提供的ground-truth信息在线上训练判别式分类器(然后在线进行更新)。 关联滤波器(CF)是一种可以区分任意目标的模板及其2D转换的简单算法,由于Bolme等人的开创性工作,它成为了一种特别快速有效的逐次跟踪跟踪策略。 [4]。 通过采用多通道公式[24、20],空间约束[25、13、33、29]和深层特征(例如[12、51]),基于相关滤波器的跟踪器的性能得到了显着改善。

最近,一种完全不同的方法被引入[3,19,49]。这些方法不是在线学习分离分类器,而是离线训练视频帧对的相似函数。在测试时,这个函数可以简单地在一个新的视频上执行,每帧一次。特别是,全卷积Siamese方法[3]的演化利用了区域建议[28]、难例挖掘[63]、集合[15]和内存网络[60],这极大地

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值