正在写一篇关于本篇论文个人理解的博客,喜欢的同志可以关注一下,相互交流。另外,有什么翻译不对的地方欢迎大家留言指正,谢谢!!
Abstract
近年来,人们对自监督密集跟踪的研究取得了很大的进展,但其性能与监督方法仍有很大的差距。我们提出了一个在视频上训练的无注释的密集跟踪模型,该模型在现有的基准上比以前的自监督方法有显著的优势(+15%),并且达到了与监督方法相当的性能。在本文中,我们首先通过深入的实验来重新评估用于自我监督训练和重建损失的传统选择,最后阐明最优选择。第二,我们通过使用关键的内存组件来增强我们的体系结构,从而进一步改进现有的方法。第三,以大规模半监督视频对象分割(aka.密集跟踪)为基准,并提出了一个新的度量:概化性。我们的前两个贡献产生了一个自监督网络,它第一次在密集跟踪的标准评估度量上与监督方法相竞争。在测量概化性时,我们发现自监督方法实际上优于大多数监督方法。我们相信这种新的通用性度量能够更好地捕捉真实世界中的密集跟踪用例,并将激发人们对这一研究方向的新兴趣。代码开源地址:https://github.com/zlai0/MAST。
1. Introduction
尽管人类视觉系统的工作机制在神经生理学的层面上仍然有些模糊,但人们一致认为,追踪物体是婴儿在2到3个月大时开始发育的一种基本能力[5,34,58]。同样,在计算机视觉系统中,跟踪在从自动驾驶到视频监控的许多应用中扮演着关键的角色。
给定第一帧中定义的任意对象,跟踪算法的目标是在整个视频序列中重新定位同一对象。在文献中,跟踪可分为两类:第一类是视觉对象跟踪(VOT)[35],其目标是在整个视频中使用边界框重新定位对象;另一类是更细粒度的跟踪,即使用像素级分割遮罩重新定位对象,也称为半监督视频对象分割(Semi-VOS)[48]。在本文中,我们将重点讨论后一种情况,并从这里开始将其与密集跟踪互换使用。
为了训练这种密集的跟踪系统,最近的方法依赖于带有大量人工注释的监督训练(参见图1)。 例如,通常采用ImageNet [10]训练后的ResNet [18]作为特征编码器,并进一步对图像或视频帧进行微调,这些图像或视频帧使用细粒度的按像素划分的蒙版进行注释,例如: COCO [40],Pascal [13],DAVIS [48]和YouTube-VOS [71]。 尽管取得了成功,但这种自上而下的训练方案在考虑人类视觉系统的发展时似乎违反直觉,因为婴儿可以在将物体映射到语义之前先跟踪并跟随缓慢移动的物体。 有了这个证据,人类不太可能以自上而下的方式(由语义监督)来发展他们的追踪能力,至少在视觉系统的早期发展时如此。
与上述基于严格监督的方法不同,自我监督方法[37,59,60,64]最近被引入,导致更直观的神经生理学方向。虽然不需要任何标记数据,但这些方法的性能仍远不及监督方法(图1)。
我们继续采用自监督方法,并提出了一种改进的跟踪器,我们称之为记忆增强自监督跟踪器(MAST)。与以往的自监督方法类似,我们的模型通过学习一种特征表示来进行跟踪,该特征表示使得帧之间能够实现鲁棒的像素级的对应,然后基于这些对应将给定的分割掩码传播到后续的帧。本文主要做了三个方面的工作:首先,通过深入的实验,重新评估了传统的用于自监督训练和重建损失的选择,最终确定了最优选择。其次,为了解决跟踪器漂移的挑战(即,当物体改变外观或被遮挡时,如果仅从最近的帧传播,则每个后续的预测变得不那么准确),我们通过使用关键的内存组件来增强我们的体系结构,从而进一步改进现有的方法。我们设计了一种从粗到细的方法来有效地访问内存库:两步注意机制首先粗搜索候选窗口,然后计算细粒度匹配。我们进行实验来分析我们对记忆框架的选择,结果表明短期记忆和长期记忆对良好的表现都是至关重要的。第三,我们以大规模视频分割数据集为基准,提出了一种新的度量方法,即概化性,目的是度量跟踪可见类别和不可见类别之间的性能差距,我们认为这种方法能够更好地捕捉真实世界中的类别无关跟踪用例。
前两个贡献的结果是一个自我监督的网络,在DAVIS-2017(15%)和YouTube-VOS(17%)基准上大大超过了所有现有方法,使其首次与监督方法竞争。我们的结果表明,一个强大的表示跟踪可以学习不使用任何语义注释,呼应人类视觉系统的早期发展。除了在现有指标上显著缩小与监督方法的差距外,我们还证明了自监督方法在可推广性上优于监督方法。在YouTube-VOS基准的未知类别上,我们超越了在海量分割数据集上训练的2018挑战优胜者算法PreMVOS[41]。此外,当我们分析可见和不可见类别之间的性能下降时,我们表明我们的方法(以及其他自监督方法)比监督方法具有显著更小的泛化差距。这些结果表明,与普遍认为的自监督方法由于性能较弱而尚未有用的观点相反,当部署在实际环境中时,其更大的泛化能力(由于不存在过度拟合标签的风险)实际上是更理想的质量,在实际环境中,域差距可能很大。
2. Related Work
密集跟踪:半监督视频分割(semi-supervised video segmentation)通常有两种方法:基于传播或基于检测/分割。前者将密集跟踪任务描述为从第一帧到连续帧的掩模传播问题。为了利用两个相邻帧之间的时间一致性,许多基于传播的方法通常试图通过光流或度量学习建立密集的对应[20,21,29,41,56]。然而,光流的计算仍然是一个具有挑战性的,尚未解决的问题。我们的方法放松了光流的一对一亮度恒定性约束和空间平滑性约束,允许每个查询像素与多个参考像素建立潜在的对应关系。另一方面,基于检测/分割的方法通过复杂的检测或分割网络来处理跟踪任务,但由于这些模型在训练过程中通常不是类无关的,因此在推理过程中,它们通常必须在目标视频的第一帧上进行微调[6,41,42],而我们的方法不需要微调。
近年来,视频自监督学习的研究取得了丰硕的成果。由于大量的在线数据[1,4,11,14,15,22,24,25,26,27,32,38,43,59,63,67,68],人们探索了利用视频中的时空信息来学习表征的各种想法。[14,43,66]利用时空顺序来学习视频表示。最近,Han等人[17]通过对原始视频的自监督对比学习,学习用于动作识别的强视频表征。更具相关性的是,[37,59]最近利用了视频中颜色的自然时间一致性,来训练一个跟踪和通信相关任务的网络。我们将在第3.1节中更详细地讨论这些工作。在这项工作中,我们提出用可微记忆体模组扩充自我监督追踪演算法。我们还纠正了他们训练过程中的一些缺陷。
内存增强模型是指能够访问内存存储库进行预测的计算体系结构。此类模型通常涉及在循环过程中隐式更新的内部存储器,例如LSTM[19]和GRU[9],或可通过基于注意的过程读取或写入的显式存储器[2、12、16、36、51、53、62、70]。记忆模型已被用于许多应用,包括阅读理解[51]、摘要[50]、跟踪[69]、视频理解[7]、图像和视频字幕[70,74]。在密集视觉跟踪中,流行的记忆增强模型将关键帧视为记忆[45],并使用注意机制从记忆中读取。尽管计算注意力的过程是有效的,但由于硬件(如物理内存)的计算瓶颈,它要么不能扩展到多个帧,要么不能处理高分辨率的帧。在这项工作中,我们提出了一种可扩展的方式来处理由粗到精的高分辨率信息。该模型实现了显著区域的动态定位,只需对一小部分内存进行细粒度处理。
3. Method
本文提出的密集跟踪系统MAST(MemoryAugmented Self-Supervised Tracker)是一个概念简单的密集跟踪模型,可以通过自监督学习进行训练,即在训练过程中需要零人工标注,在推理过程中只需要对第一帧进行对象掩码。在第3.1节中,我们提供了以前的自监督密集跟踪算法的相关背景,以及将在后面章节中使用的术语。接下来,在第3.2节中,我们将指出这些工作中的弱点,并对训练信号提出改进建议。最后,在第3.3节中,我们建议将记忆增强作为现有自监督跟踪器的扩展。
3.1 Background
在本节中,我们回顾了以前与这项工作密切相关的论文[37,59]。一般来说,自监督跟踪的目标是学习能够实现鲁棒匹配的特征表示。在训练期间,代理任务被设定为通过线性组合来自参考帧()的像素来重构目标帧(),权重测量像素之间的对应强度。
具体地说,每个输入帧都有一个三元组,表示查询、键和值。为了重建第帧中的像素,注意机制用于从原始序列中的先前帧的子集复制像素。本程序正式定义为:
其中指两个向量之间的点积,查询和键是通过将目标帧传递到一个暹罗来计算的特征表示形式,,是表示像素和之间的特征相似性的亲和矩阵,值是训练阶段的原始参考帧,推理阶段的实例分割掩码,分别实现重构或密集跟踪。
在自监督学习中,一个关键的因素是设置适当的信息瓶颈,或者选择保留什么样的输入信息来学习所需的特征表示和避免琐碎的解决方案。例如,在复制重建任务中,一个明显的快捷方式是中的像素可以学习匹配中具有完全相同颜色的任何像素,但不一定对应于同一对象。为了避免这种学习捷径,Vondrick等人[59]故意从输入帧中删除颜色信息。Lai和Xie[37]进一步表明,简单的通道丢失可能更有效。
3.2 Improved Reconstruction Objective
在本节中,我们重新评估了在以前的自监督密集跟踪工作中所做的选择,并为我们的最佳选择提供了直觉,这在第5节中得到了经验上的支持。
3.2.1 Decorrelated Color Space
在人类视觉系统中的大量实验表明,颜色可以看作是原色的组合,即红色(R)、绿色(G)和蓝色(B)。由于这个原因,大多数相机和发射彩色显示器将像素表示为三重强度:。然而,RGB表示法的一个缺点是通道往往非常相关[49],如图3所示。在这种情况下,在[37]中提出的信道丢失不太可能表现为有效的信息瓶颈,因为丢失的信道几乎总是可以由剩余信道之一确定的。
为了弥补这一局限性,我们假设解相关表示中的缺失将迫使模型学习适合于自监督密集跟踪的不变性;即,如果模型无法从观察到的信道中预测丢失的信道,它被迫学习一种更健壮的表示方法,而不是依赖于局部颜色信息。
3.2.2 Classification vs. Regression
在最近关于彩色化和生成模型的文献[46,75]中,颜色被量化为离散类,并被视为多项式分布,因为从灰度图像生成图像或预测颜色通常是一个不确定的问题;例如,汽车的颜色可以合理地为红色或白色。然而,这种约定对于自监督的对应学习是次优的,因为我们不试图为每个像素生成颜色,而是估计参考帧中像素的精确重定位。更重要的是,量化颜色会导致信息丢失,这对于学习高质量的对应关系至关重要。我们推测,直接优化重构帧和真实帧()之间的回归损失将提供更具辨别力的训练信号。在这项工作中,目标被定义为Huber损失:
其中∈r3表示 RGB 或 Lab ,归一化为从参考帧中的像素复制的重构帧中的范围[-1,1],并且是时间点处的真实帧。
3.3. Memory-Augmented Tracking
到目前为止,我们已经讨论了直接的基于注意的机制,用于从单个前一帧传播掩模。然而,由于预测是递归进行的,由对象遮挡和不遮挡引起的错误往往会累积并最终降低后续的预测。为了解决这个问题,我们提出了一种基于注意的跟踪器,它能有效地利用多个参考帧。
3.3.1 Multi-frame tracker
我们的跟踪模型的概述如图4所示。总结跟踪过程:给定当前帧和多个过去帧(内存库)作为输入,我们首先计算当前帧的查询(Q)和内存中所有帧的关键字(K)。这里,我们遵循第3.1节中描述的先前工作的一般程序,其中K和Q是从共享权重特征提取器计算的,V等于输入帧(在训练期间)或对象遮罩(在测试期间)。然后,计算出的Q和内存中所有键(K)之间的相似度用于根据v对每个查询像素进行预测。注意,我们不会对参考帧施加任何权重,因为这应该在相似度矩阵中进行编码(例如,当目标和参考帧不相似时,相应的相似度值自然会较低;因此,参考标记对目标像素的标记贡献较小)。
决定在K中包含哪些像素对于良好的性能至关重要。由于亲和矩阵的二次爆炸(例如,对于480p视频,[37]的网络产生的亲和矩阵具有超过10亿个元素),因此包含之前看到的所有像素在计算上过于昂贵。为了减少计算量,[37]利用视频中的时间平滑性并应用有限的注意力,仅计算与查询像素位置周围的ROI中像素的亲和力。然而,时间平滑性假设只适用于时间上接近的帧。
为了有效地处理时间上的远距离帧,我们提出了一种两步注意机制。第一阶段包括与内存库中的帧进行粗像素匹配,以确定哪些roi可能包含与查询像素的良好匹配。在第二阶段,我们提取ROI并计算细粒度像素匹配,如第3.1节所述。总的来说,这个过程可以总结在算法1中。
3.3.2 ROI Localization
ROI定位的目标是从内存库中非局部地估计候选窗口。如图5所示,这可以通过限制注意力和不同的扩张率来实现。
直观地说,对于短期记忆(时间上的闭合帧),由于视频中自然存在时空一致性,因此不需要进行扩展;因此ROI定位成为限制注意力的因素(类似于[37])。然而,对于长期记忆,我们的目的是要解释这样一个事实,即对象可能出现在参考框架的任何地方。我们将两个场景统一到一个单一的框架中来学习ROI本地化。
形式上,对于查询在中的像素,为了从帧定位ROI,我们首先并行计算,即扩展窗口中和所有候选像素之间的相似性热图:
其中是帧中的窗口采样的扩张率,是基于扩张率将输入特征映射转换为矩阵的操作。具体来说,在我们的实验中,膨胀率与记忆库中当前帧和过去帧之间的时间距离成正比,。我们使用。
然后可以通过soft-argmax操作计算ROI的中心坐标:
其中是用于查询像素的第帧中候选窗口的估计中心位置,是与来自的窗口中的像素相对应的网格坐标。像素的重采样密钥可以用双线性采样器提取[23]。对于从内存库的不同参考框架中动态采样的所有候选密钥,我们仅用这些局部密钥计算细粒度匹配分数,类似于非局部方式的受限注意。因此,通过该设计,内存增强模型可以有效地访问高分辨率信息进行对应匹配,而不会产生大量的物理内存开销。
4. Implementation Details
训练:为了公平比较,我们在所有实验中采用与[37]相同的架构(ResNet18)作为特征编码器(如补充材料所示)。该网络生成的特征嵌入的空间分辨率为原始图像的1/4。该模型是以完全自监督的方式训练的,这意味着该模型是用随机权值初始化的,并且我们不使用原始视频序列以外的任何信息。我们报告了两个训练数据集的主要结果:OxUvA[52]和YouTube-VOS(仅两个原始视频)。我们报告第一种方法是为了与最先进的方法进行公平比较[37],第二种方法是为了获得最佳性能。作为预处理,我们将所有帧的大小调整为256×256×3。在我们所有的实验中,我们使用(只有当当前帧的索引大于5时)作为长期记忆,而作为短期记忆。根据经验,我们发现帧数的选择对性能的影响很小,但同时使用长时记忆和短时记忆是必要的(见附录)。
在训练过程中,首先用一对输入帧对网络进行预训练,即输入一个参考帧和一个目标帧。其中一个颜色通道随机丢弃,概率 = 0.5。我们使用Adam优化器对模型进行端到端的训练,批量大小为24,迭代次数为1M。初始学习速率设置为,并在0.4M、0.6M和0.8M迭代后减半。然后,我们使用多个参考帧(我们的全内存增强模型)对模型进行微调,再进行1M迭代,学习率为。如第3.2.2节所述,使用重建和真实帧之间的光度损失来训练模型。
推理:利用训练后的特征编码器计算目标帧中像素之间的亲和力矩阵和参考帧中的像素间的亲和力矩阵。 然后,将亲和矩阵用于传播所需像素级实体,例如在密集跟踪案例中的实例掩码,如算法1所述。
图像特征对齐:由于内存的限制,以往的监控信号都是在双线性降采样图像上定义的。如图6(a)所示,这引入了跨步卷积层和原始双线性下采样图像之间的错位。我们通过在跨步卷积中心直接采样来处理特征嵌入和图像之间的空间错位。这个看似微小的变化实际上给下游跟踪任务带来了显著的改进(表4)。
5. Experiments
我们在两个公共基准上对我们的模型进行了基准测试:DAVIS-2017[48]和当前最大的视频分割数据集YouTube-VOS[71]。前者包含150个高清视频,超过30K个手动实例分割;后者包含4000多个高清视频,90个语义类别,总计超过190k个实例分割。对于这两个数据集,我们在官方的半监督视频分割设置(aka)上对所提出的自监督学习架构(MAST)进行了测试。密集跟踪),其中为第一帧提供一个地面真值实例分割掩码,目标是将掩码传播到后续帧。在第5.1节中,我们报告了完整模型和几个烧蚀模型在DA-VIS基准上的性能。接下来,在第5.2节中,我们通过在大规模的Y-ouTube-VOS数据集上进行基准测试来分析模型的可推广性。
标准评估指标。我们使用区域相似性和轮廓精度来评估跟踪的实例掩码[47]。
可推广性度量用于证明跟踪算法在类别不可知的情况下的可推广性,即训练集和测试集中的类别是不相交的,YouTube-VOS还显式地对不可见类别的性能进行基准测试。因此,我们在第5.2.1节中评估了泛化差距,该差距被定义为可见和不可见对象类之间的平均性能差异:
注意,建议的指标旨在明确惩罚出现在看不见的类别上的表现远远超过看不见的类别的情况,同时在看不见的类别上的表现高于看不见的类别上的表现时提供奖励。
5.1 Video Segmentation on DA VIS-2017
5.1.1 Main results
在表1中,我们将MAST与DAVIS-2017基准上的先前方法进行了比较。可以观察到两种现象:首先,我们提出的模型明显优于所有其他的自我监督方法,大大超过了以前的CorrFlow。第二,尽管只使用ResNet18作为特征编码器,我们的模型通过自监督学习训练仍然可以超越使用较重体系结构的监督方法。
5.1.2 Ablation Studies
为了检验不同成分的影响,我们进行了一系列的消融研究,每次移除一个成分。所有模型均在OxUvA上训练(不同数据集的分析除外),并在DAVIS-2017半监督视频分割(aka. 密集跟踪)上评估,没有任何微调。
颜色空间的选择。如表2所示,我们将输入帧转换成不同的颜色空间(例如RGB、Lab或HSV)进行不同的实验。我们发现用Lab颜色空间训练的MAST模型总是优于其他颜色空间,这验证了我们的猜想,即在解相关颜色空间中的丢失导致更好的自监督密集跟踪特征表示,如第3.2.1节所述。此外,我们将我们的默认设置与使用交叉颜色空间匹配任务训练的模型进行比较(如表3所示)。这意味着使用不同的颜色空间作为输入和训练目标,例如输入帧是RGB,损失函数是在Lab颜色空间中定义的。有趣的是,性能显著下降,我们假设这可以归因于所有RGB通道都包含亮度表示,使其与实验室中的亮度高度相关,因此充当弱信息瓶颈。
损失函数。作为我们训练过程的一个变体,我们用不同的损失函数进行了实验:量化颜色的交叉熵损失,以及Huber损失的光度损失。如表2所示,具有实值光度损失的回归显著优于分类,验证了我们的推测,即颜色量化过程中的信息损失导致自我监督跟踪的较低表示(如第3.2节所述),这是由于较少区分的训练信号。
图像特征对齐。为了评估用于将特征与原始图像对齐的对齐模块,我们将其与CorrFlow使用的直接双线性图像下采样进行了比较[37]。表4中的结果表明,我们的方法实现了大约2.2%的高性能。
动态内存利用更多的帧。我们将我们的默认网络与只有短期记忆或长期记忆的变体进行比较。结果见表5。虽然短期记忆和长期记忆都能做出合理的预测,但组合模型的预测效果最好。定性预测(图10和图7)也证实了改进来自减少跟踪器漂移。例如,当发生严重遮挡时,我们的模型能够处理并从时间上遥远的帧中检索高分辨率信息。
5.2. Youtube Video Object Segmentation
我们还评估了Youtube-VOS验证分割的MAST模型(474个视频,91个对象类别)。由于没有其他自监督方法在基准上进行测试,我们直接将我们的结果与监督方法进行比较。如表8所示,我们的方法在很大程度上优于其他自监督学习方法(64.2 vs.46.6),甚至达到了与许多重监督方法相当的性能。
5.2.1 Generalizability
作为评估类别无约束跟踪的另一个度量,Y-ouTube-VOS数据集方便地对可见和不可见的对象类别有单独的度量。因此,我们可以估计分布外样本的测试性能,以评估模型对更具挑战性的、看不见的真实场景的泛化能力。从上两列可以看出,我们在所有不可见对象的算法中排名第二。在这些看不见的类别中,我们甚至比DAVIS 2018和YouTube-VOS2018视频分割挑战赛冠军PreMVOS[41]高出3.9%,PreMVOS是一种使用多个大型手动标记数据集训练的复杂算法。为了公平比较,我们只在YouTube-VOS训练集上训练我们的模型。我们还以与基线相同的方式重新训练两种最相关的自我监督方法。即使只从所有类的一个子集学习,我们的模型也能很好地推广到不可见的类,推广差距(即可见和不可见对象之间的性能差异)接近于零(0.4)。这一差距远小于任何基线(avg = 11.5),这表明与大多数其他用标签训练的算法相比有独特的优势。
通过对大量未标记视频的训练,我们学习了一种有效的跟踪表示,而不需要任何人工注释。这意味着所学习的网络不局限于一组特定的对象类别(即训练集中的那些类别),而是更可能是用于跟踪的“通用特征表示”。事实上,唯一的监督算法,可与我们的方法在推广是OSVOS(2.7vs0.4)。然而,OSVOS使用来自测试序列的第一个图像来执行代价高昂的域自适应,例如一次微调。相比之下,我们的算法不需要微调,这进一步证明了它的零触发泛化能力。
注意,与其他自监督方法相比,我们的模型也有较小的泛化差距。这进一步证明了其学习特征的鲁棒性,表明我们改进的重建目标在捕获一般特征方面是非常有效的。
6. Conclusion
总之,我们提出了一种记忆增强的自监督模型,该模型能够实现精确的、可推广的像素级跟踪。该算法在训练过程中不需要任何语义标注,与已有的自监督方法相比有显著的提高,缩小了与监督方法的差距。在看不见的对象类别上,我们的模型实际上比所有的方法都好,只有一种方法是经过严格监督训练的。随着计算能力的增长和越来越多的高质量视频的出现,我们相信自监督学习算法可以作为一个强大的竞争对手,他们的监督同行的灵活性和通用性。
Appendix A. Network architecture
与CorrFlow[37]一样,我们使用了一种改进的ResNet-18[18]体系结构。网络详情见表9。
Appendix B. Optimal memory size
在图8中,我们明确地展示了增加内存库中参考帧数量的有效性,并确认5帧内存对于我们的任务是最佳的。
Appendix C. Analysis by attributes
我们提供了一个更详细的准确度列表,按davis基准提供的视频属性进行细分[47](见表10)。这些属性说明了与每个视频序列相关联的困难。图9包含按属性分类的精度。出现了几个趋势:首先,MAST在所有属性上都比其他自监督和无监督模型有很大的优势。这表明我们的模型对密集跟踪中的各种挑战具有很强的鲁棒性。其次,MAST在遮挡相关的视频序列(如OOC、OV)上获得了显著的增益,这表明记忆增强是高质量跟踪的关键因素:如果没有记忆增强,从先前帧中检索遮挡对象是非常困难的。第三,在含有背景杂波的视频中,即背景和前景颜色相似的情况下,MAST比以往的方法有了较小的改进。我们推测这一瓶颈可能是由共享的光度损失造成的;因此,不同的损失类型(例如基于纹理一致性)可以进一步改善结果。
Appendix D. YouTube-VOS 2019 dataset
我们也在Y-ouTube-VOS 2019验证数据集上评估了MAST和其他两种自监督方法。数值结果见表11。在2018版的基础上,2019版包含更多视频和对象实例。我们观察到类似的趋势,如报告的主要文件(即显着改善和较低的推广差距)。
Appendix E. More qualitative results
如图10所示,我们提供了更多的定性结果,显示了跟踪任务中的一些困难。这些困难包括跟踪多个相似对象(多实例跟踪往往因相似对象合并而失败)、相机抖动过大(对象可能有运动模糊)、推断对象的不可见对象姿态等。如图所示,MAST很好地处理了这些困难。
References
[1] Pulkit Agrawal, Joao Carreira, and Jitendra Malik. Learning to see by moving. In Proc. ICCV, 2015.
[2] Dzmitry Bahdanau, Kyunghyun Cho, and Y oshua Bengio. Neural machine translation by jointly learning to align and translate. Proc. ICLR, 2015.
[3] Linchao Bao, Baoyuan Wu, and Wei Liu. Cnn in mrf: Video object segmentation via inference in a cnn-based higherorder spatio-temporal mrf. In Proc. CVPR, 2018.
[4] Bert De Brabandere, Xu Jia, Tinne Tuytelaars, and Luc V an Gool. Dynamic filter networks. In NIPS, 2016.
[5] T. Berry Brazelton, Mary Louise Scholl, and John S. Robey. Visual responses in the newborn. Pediatrics, 1966.
[6] Sergi Caelles, Kevis-Kokitsi Maninis, Jordi Pont-Tuset, Laura Leal-Taixé, Daniel Cremers, and Luc V an Gool. Oneshot video object segmentation. In Proc. CVPR, 2017.
[7] Wu Chao-Y uan, Feichtenhofer Christoph, Fan Haoqi, He Kaiming, Krähenbühl Philipp, and Girshick Ross. LongTerm Feature Banks for Detailed Video Understanding. In Proc. CVPR, 2019.
[8] Jingchun Cheng, Yi-Hsuan Tsai, Wei-Chih Hung, Shengjin Wang, and Ming-Hsuan Yang. Fast and accurate online video object segmentation via tracking parts. In Proc. CVPR, 2018.
[9] Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and Y oshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv:1412.3555, 2014.
[10] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Fei-Fei Li. Imagenet: A large-scale hierarchical image database. In Proc. CVPR, 2009.
[11] Emily Denton and Vighnesh Birodkar. Unsupervised learning of disentangled representations from video. In NIPS, 2017.
[12] J. Devlin, M.W. Chang, K. Lee, and K. Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. 2018.
[13] Mark Everingham, Luc V an Gool, Christopher K. I. Williams, John Winn, and Andrew Zisserman. The PASCAL Visual Object Classes Challenge 2009 (VOC2009) Results. http://www.pascalnetwork.org/challenges/VOC/voc2009/workshop/index.html, 2009.
[14] Basura Fernando, Hakan Bilen, Efstratios Gavves, and Stephen Gould. Self-supervised video representation learning with odd-one-out networks. In Proc. CVPR, 2017.
[15] Chuang Gan, Boqing Gong, Kun Liu, Hao Su, and Leonidas J. Guibas. Geometry guided convolutional neural networks for self-supervised video representation learning. In Proc. CVPR, 2018.
[16] Alex Graves, Greg Wayne, and Ivo Danihelka. Neural turing machines. arXiv preprint arXiv:1410.5401, 2014.
[17] Tengda Han, Weidi Xie, and Andrew Zisserman. Video representation learning by dense predictive coding. In 1st International Workshop on Large-scale Holistic Video Understanding, ICCV, 2019.
[18] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proc. CVPR, 2016.
[19] Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
[20] Y uan-Ting Hu, Jia-Bin Huang, and Alexander G. Schwing. Maskrnn: Instance level video object segmentation. In NIPS, 2017.
[21] Y uan-Ting Hu, Jia-Bin Huang, and Alexander G. Schwing. Videomatch: Matching based video object segmentation. In Proc. ECCV, 2018.
[22] Phillip Isola, Daniel Zoran, Dilip Krishnan, and Edward H. Adelson. Learning visual groups from co-occurrences in space and time. In Proc. ICLR, 2015.
[23] Max Jaderberg, Karen Simonyan, Andrew Zisserman, et al. Spatial transformer networks. In NIPS, 2015.
[24] Tomas Jakab, Ankush Gupta, Hakan Bilen, and Andrea V edaldi. Conditional image generation for learning the structure of visual objects. In NIPS, 2018.
[25] Dinesh Jayaraman and Kristen Grauman. Learning image representations tied to ego-motion. In Proc. ICCV, 2015.
[26] Dinesh Jayaraman and Kristen Grauman. Slow and steady feature analysis: higher order temporal coherence in video. In Proc. CVPR, 2016.
[27] Longlong Jing, Xiaodong Yang, Jingen Liu, and Yingli Tian. Self-supervised spatiotemporal feature learning by video geometric transformations. arXiv preprint arXiv:1811.11387, 2018.
[28] Joakim Johnander, Martin Danelljan, Emil Brissman, Fahad Shahbaz Khan, and Michael Felsberg. A generative appearance model for end-to-end video object segmentation. In Proc. CVPR, 2019.
[29] Anna Khoreva, Rodrigo Benenson, Eddy Ilg, Thomas Brox, and Bernt Schiele. Lucid data dreaming for multiple object tracking. In arXiv preprint arXiv: 1703.09554, 2017.
[30] Anna Khoreva, Federico Perazzi, Rodrigo Benenson, Bernt Schiele, and Alexander Sorkine-Hornung. Learning video object segmentation from static images. In arXiv preprint arXiv:1612.02646, 2016.
[31] A. Khoreva, A. Rohrbach, and B. Schiele. Video object segmentation with language referring expressions. In Proc. ACCV, 2018.
[32] Dahun Kim, Donghyeon Cho, and In So Kweon. Selfsupervised video representation learning with space-time cubic puzzles. In AAAI, 2018.
[33] Shu Kong and Charless Fowlkes. Multigrid predictive filter flow for unsupervised learning on videos. arXiv 1904.01693, 2019, 2019.
[34] Janet P . Kremenitzer, Herbert G. V aughan, Diane Kurtzberg, and Kathryn Dowling. Smooth-pursuit eye movements in the newborn infant. Child Development, 1979.
[35] Matej Kristan, Jiri Matas, Aleˇ s Leonardis, Tomas V ojir, Roman Pflugfelder, Gustavo Fernandez, Georg Nebehay, Fatih Porikli, and LukaˇCehovin. A novel performance evaluation methodology for single-target trackers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016.
[36] Ankit Kumar, Ozan Irsoy, Peter Ondruska, Mohit Iyyer, James Bradbury, Ishaan Gulrajani, Victor Zhong, Romain Paulus, and Richard Socher. Ask me anything: Dynamic memory networks for natural language processing. In International conference on machine learning, 2016.
[37] Zihang Lai and Weidi Xie. Self-supervised learning for video correspondence flow. In Proc. BMVC., 2019.
[38] Hsin-Ying Lee, Jia-Bin Huang, Maneesh Singh, and MingHsuan Yang. Unsupervised representation learning by sorting sequences. In Proc. ICCV, 2017.
[39] Xiaoxiao Li and Chen Change Loy. Video object segmentation with joint re-identification and attention-aware mask propagation. In Proc. ECCV, 2018.
[40] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Dollar. Microsoft coco: Common objects in context. In Proc. ECCV, 2014.
[41] Jonathon Luiten, Paul V oigtlaender, and Bastian Leibe. Premvos: Proposal-generation, refinement and merging for video object segmentation. In Proc. ACCV, 2018.
[42] Kevis-Kokitsi Maninis, Sergi Caelles, Y uhua Chen, Jordi Pont-Tuset, Laura Leal-Taixé, Daniel Cremers, and Luc V an Gool. Video object segmentation without temporal information. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2018.
[43] Ishan Misra, C. Lawrence Zitnick, and Martial Hebert. Shuffle and learn: Unsupervised learning using temporal order verification. In Proc. ECCV, 2016.
[44] Seoung Wug Oh, Joon-Y oung Lee, Kalyan Sunkavalli, and Seon Joo Kim. Fast video object segmentation by referenceguided mask propagation. In Proc. CVPR, 2018.
[45] Seoung Wug Oh, Joon-Y oung Lee, Ning Xu, and Seon Joo Kim. Video object segmentation using space-time memory networks. In Proc. ICCV, 2019.
[46] Aaron van den Oord, Nal Kalchbrenner, and Koray Kavukcuoglu. Pixel recurrent neural networks. In Proc. ICML, 2016.
[47] F. Perazzi, J. Pont-Tuset, B. McWilliams, L. V an Gool, M. Gross, and A. Sorkine-Hornung. A benchmark dataset and evaluation methodology for video object segmentation. In Proc. CVPR, 2016.
[48] Jordi Pont-Tuset, Federico Perazzi, Sergi Caelles, Pablo Arbelez, Alex Sorkine-Hornung, and Luc V an Gool. The 2017 davis challenge on video object segmentation. arXiv:1704.00675, 2017.
[49] Erik Reinhard, Michael Adhikhmin, Bruce Gooch, and Peter Shirley. Color transfer between images. IEEE Computer graphics and applications, 21(5):34–41, 2001.
[50] Abigail See, Peter J Liu, and Christopher D Manning. Get to the point: Summarization with pointer-generator networks. arXiv preprint arXiv:1704.04368, 2017.
[51] Sainbayar Sukhbaatar, Jason Weston, Rob Fergus, et al. Endto-end memory networks. In Advances in neural information processing systems, pages 2440–2448, 2015.
[52] Jack V almadre, Luca Bertinetto, Joao F. Henriques, Ran Tao, Andrea V edaldi, Arnold Smeulders, Philip Torr, and Efstratios Gavves. Long-term tracking in the wild: A benchmark. In Proc. ECCV, 2018.
[53] A. V aswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin. Attention is all you need. In NIPS, 2017.
[54] Carles V entura, Miriam Bellver, Andreu Girbau, Amaia Salvador, Ferran Marques, and Xavier Giro-i Nieto. Rvos: Endto-end recurrent network for video object segmentation. In Proc. CVPR, 2019.
[55] Carles V entura, Miriam Bellver, Andreu Girbau, Amaia Salvador, Ferran Marques, and Xavier Giro-i Nieto. Rvos: Endto-end recurrent network for video object segmentation. In Proc. CVPR, June 2019.
[56] Paul V oigtlaender, Y uning Chai, Florian Schroff, Hartwig Adam, Bastian Leibe, and Liang-Chieh Chen. Feelvos: Fast end-to-end embedding learning for video object segmentation. In Proc. CVPR, 2019.
[57] Paul V oigtlaender and Bastian Leibe. Online adaptation of convolutional neural networks for video object segmentation. In Proc. BMVC., 2017.
[58] C. von Hofsten. Eyehand coordination in the newborn. Developmental Psychology, 1982.
[59] Carl V ondrick, Abhinav Shrivastava, Alireza Fathi, Sergio Guadarrama, and Kevin Murphy. Tracking emerges by colorizing videos. In Proc. ECCV, 2018.
[60] Ning Wang, Yibing Song, Chao Ma, Wengang Zhou, Wei Liu, and Houqiang Li. Unsupervised deep tracking. In Proc. CVPR, 2019.
[61] Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, and Philip H.S. Torr. Fast online object tracking and segmentation: A unifying approach. In Proc. CVPR, 2019.
[62] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In Proc. CVPR, 2018.
[63] Xiaolong Wang and Abhinav Gupta. Unsupervised learning of visual representations using videos. In Proc. ICCV, 2015.
[64] Xiaolong Wang, Allan Jabri, and Alexei A. Efros. Learning correspondence from the cycle-consistency of time. In Proc. CVPR, 2019.
[65] Ziqin Wang, Jun Xu, Li Liu, Fan Zhu, and Ling Shao. Ranet: Ranking attention network for fast video object segmentation. In Proc. ICCV, 2019.
[66] Donglai Wei, Joseph Lim, Andrew Zisserman, and William T. Freeman. Learning and using the arrow of time. In Proc. CVPR, 2018.
[67] Olivia Wiles, A. Sophia Koepke, and Andrew Zisserman. Self-supervised learning of a facial attribute embedding from video. In Proc. BMVC., 2018.
[68] Olivia Wiles, A. Sophia Koepke, and Andrew Zisserman. X2face: A network for controlling face generation using images, audio, and pose codes. In Proc. ECCV, 2018.
[69] Zhu Xizhou, Wang Y ujie, Dai Jifeng, Y uan Lu, and Wei Yichen. Flow-guided feature aggregation for video object detection. In Proc. ICCV, 2017.
[70] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Y oshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In Proc. ICML, 2015.
[71] Ning Xu, Linjie Yang, Y uchen Fan, Dingcheng Y ue, Y uchen Liang, Jianchao Yang, and Thomas Huang. Y outubevos: A large-scale video object segmentation benchmark. arXiv:1809.03327, 2018.
[72] Li Xueting, Liu Sifei, De Mello Shalini, Wang Xiaolong, Kautz Jan, and Yang Ming-Hsuan. Joint-task self-supervised learning for temporal correspondence. In NeurIPS, 2019.
[73] Linjie Yang, Yanran Wang, Xuehan Xiong, Jianchao Yang, and Aggelos Katsaggelos. Efficient video object segmentation via network modulation. In Proc. CVPR, 2018.
[74] Li Yao, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, and Aaron Courville. Describing videos by exploiting temporal structure. In Proc. ICCV, 2015.
[75] Richard Zhang, Phillip Isola, and Alexei Efros. Colorful image colorization. In Proc. ECCV, 2016.