MAST: A Memory-Augmented Self-Supervised Tracker

Abstract

最近对自监督密集跟踪的兴趣已经取得了迅速的进展,但是性能仍然离监督方法还有很远的一段路要走。 我们提出了一种基于无注释视频训练的密集跟踪模型,该模型在现有基准上比以往的自监督方法有很大的提高(+15%),并且取得了与监督方法相当的性能。

在本文中
我们首先通过深入的实验重新评估了用于自我监督训练和重建损失的传统选择,最后阐明了最优选择。 其次,我们通过使用一个关键的内存组件来增强我们的体系结构,从而进一步改进了现有的方法。 第三,我们以大规模半监督视频对象分割为基准(又名。 密集跟踪),并提出了一个新的度量:泛化能力我们的前两个贡献产生了一个自监督网络,它在密集跟踪的标准评估指标上首次与监督方法竞争。 在衡量泛化能力时,我们发现自我监督方法实际上要优于大多数监督方法。 我们相信,这种新的泛化度量可以更好地捕捉密集跟踪的真实用例,并将激发人们对这一研究方向的新兴趣。

1. Introduction

尽管人类视觉系统的工作机制在神经生理学水平上仍然有些晦涩,但已经达成共识,追踪物体是婴儿在两至三个月大时开始发育的基本能力[5、34、58]。 同样,在计算机视觉系统中,跟踪在从自动驾驶到视频监控的许多应用中都扮演着关键角色。
给定在第一帧中定义的任意对象,跟踪算法旨在在整个视频序列中重新定位同一对象。 在文献中,跟踪可分为两类:第一类是视觉对象跟踪(VOT)[35],其目标是在整个视频中使用边界框重新定位对象bbox; 另一个目标是进行更细粒度的跟踪,即使用像素级分割蒙版重新定位对象mask,也称为半监督视频对象分割(Semi-VOS)[48]。
在本文中,我们将重点放在后一种情况并且从此以后将与密集跟踪作为参考使用

在这里插入图片描述
图1:与DAVIS-2017(视频分割的基准)基准上的其他最新作品进行比较,即在给定第一帧注释的情况下进行密集跟踪或半监督视频分割。 所提出的方法明显优于其他自我监督方法,甚至可以与在ImageNet,COCO,Pascal,DAVIS,Youtube-VOS上经过严格监督的方法相媲美。 在x轴上,我们仅计算按像素分割。
为了训练这种密集的跟踪系统,最近的方法依赖于带有大量人工注释的监督训练(见图1)。 例如,通常采用ImageNet [10]预训练的ResNet [18]作为特征编码器,并进一步对图像或视频帧进行微调,这些图像或视频帧带有细粒度的像素级分割蒙版,例如 COCO [40],Pascal [13],DAVIS [48]和YouTube-VOS [71]。 尽管取得了成功,但这种自上而下的训练方案在考虑人类视觉系统的发展时似乎违反直觉,因为婴儿可以在将物体映射到语义之前先跟踪并跟随缓慢移动的物体。 (这里应该解释为一个婴幼儿是先通过观察到一个东西的移动才慢慢的知道这是个什么东西,而不是因为知道了他的标注才目光跟着他动)有了这个证据,人们不太可能以自上而下的方式(由语义监督)来发展他们的跟踪能力,至少在视觉系统的早期发展时如此。(作者的意思就是说他们认为拿已知的标准去训练一个位置的model这样的顺序并不符合人类的意识逻辑,那么他们组尝试了用正序来实现对一个事物的认认知性跟踪)在这里插入图片描述
图2:一次训练,在多个数据集上进行测试:来自我们在DAVIS-2017和YouTube-VOS数据集上的自监督密集跟踪模型的定性结果。 左上方的数字表示视频中的帧号。 对于所有示例,都给出了第0帧的蒙版mask,任务是跟踪对象以及视频。 我们的自我监督跟踪模型能够处理具有挑战性的场景,

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值