Abstract:
1.视频目标分割是一个很重要的挑战,对于各种各样的视频分析任务。最近视频目标分割任务基于深度网络取得了state-of-the-art的结果。
2.由于作为预测任务的表述,这些方法中的大多数都需要在测试期间进行微调,以使深层网记忆给定视频中感兴趣对象的外观。
3.为了解决这个问题,我们开发了一种新颖的基于匹配的视频对象分割算法。 与基于记忆的分类技术相比,所提出的方法学习将提取的特征与提供的模板进行匹配,而无需记忆对象的外观。 我们在具有挑战性的DAVIS-16,DAVIS-17,Youtube-Objects和JumpCut数据集上验证了该方法的有效性和鲁棒性。 大量结果表明,我们的方法无需进行微调即可达到可比的性能,并且在计算时间方面更为有利。
Introduction:
1. 视频分割在从对象识别,视频编辑到视频压缩的各种应用中起着至关重要的作用。 尽管在许多情况下,对象的描绘和跟踪对于人类来说似乎微不足道,但是由于遮挡,快速运动,运动模糊以及随时间的显着变化,视频对象分割对于算法仍然具有挑战性。
2.我们的方法主要是关注于半监督的任务,即知道视频的第一帧。
3.基于深度学习的方法都需要对视频的第一帧进行微调,这样花费了大量的时间
4.所以我们提出了一种基于匹配的方法,即当前帧的前景和背景与第一帧的前景和背景的特征是可以匹配的,为了保证我们的方法可以处理外观和几何的变化,我们使用深度网络自适应提取特征。我们的方法mIoU达到了81.03%【masktrack为80.3,但是是不是都是DAVIS-16?因为这篇的结果是在DAVIS16上】,同时大大减少了运行时间,每帧只需要0.32秒,而之前的masktrack则需要12秒每帧,可以说是大大减少了时间
Related work:
与我们的工作同时,提出了几种最近的方法(都是独立开发的),它们通过基于Part的VideoMatch来提高视频对象分割的速度:基于匹配的视频对象分割跟踪[9],逐像素度量学习[7]或网络调制[56,38]。我们请读者阅读这些作品,以获取更完整的图片。
semi-supervison:
在无监督的视频对象细分设置中,groundtruth和用户标注均不可用。因此,无监督设置需要算法自动发现视频中的显着对象。已经提出了不同的方法,例如运动分析[39],轨迹聚类[37]和基于显着性的时空传播[12、20]来识别前景对象。最近,已经讨论了基于深网的方法[47,48,22]。
object tracking:
半监督视频对象分割和对象跟踪[58、28]与我们的方法有关,因为它们都可以跟踪整个视频中的对象。但是,这两个任务的输出格式不同。视频对象分割的输出是像素级分mask,而对象跟踪的输出是界定对象位置和比例的边界框。根据跟踪文献,Bertinetto等人的工作。 [3]在精神上类似于我们提出的方法,因为它们通过匹配来制定跟踪。然而,由于输出的差异,Bertinetto等人。 [3]通过将整个补丁与给定模板进行卷积来计算相关性,然而我们提出了针对像素分割的软匹配【什么是软匹配?】。
matching:
在过去的几十年中,对图像匹配[33,18]进行了广泛的研究。随着深度学习的成功,研究重点从使用手工特征的匹配[35]转移到了深度特征[57]。通常计算提取的特征图之间的相关性,以找到对应关系[45],以估计光流场[10]和几何变换[46]。由于匹配的目的是找到点对点的对应关系,因此,如果将匹配算法直接应用于分割,则结果将很嘈杂【为什么会很嘈杂】。为了处理嘈杂的预测,我们提出了一种软匹配机制,该机制可以估算不同段之间的相似性得分,如下所述。
Matching based Video Object Segmentation:
overview:
一些预设变量:
假定一个视频有T帧,,第一帧的ground truth为
,其中W,H分别代表图像的宽和高,
为第一帧的Ground truth, N表示为第一帧里的目标数量,预测第一帧以后的帧的结构,我们表示为
,
和