VideoMatch: Matching based Video Object Segmentation

Abstract:

1.视频目标分割是一个很重要的挑战,对于各种各样的视频分析任务。最近视频目标分割任务基于深度网络取得了state-of-the-art的结果。

2.由于作为预测任务的表述,这些方法中的大多数都需要在测试期间进行微调,以使深层网记忆给定视频中感兴趣对象的外观。

3.为了解决这个问题,我们开发了一种新颖的基于匹配的视频对象分割算法。 与基于记忆的分类技术相比,所提出的方法学习将提取的特征与提供的模板进行匹配,而无需记忆对象的外观。 我们在具有挑战性的DAVIS-16,DAVIS-17,Youtube-Objects和JumpCut数据集上验证了该方法的有效性和鲁棒性。 大量结果表明,我们的方法无需进行微调即可达到可比的性能,并且在计算时间方面更为有利。

Introduction:

1. 视频分割在从对象识别,视频编辑到视频压缩的各种应用中起着至关重要的作用。 尽管在许多情况下,对象的描绘和跟踪对于人类来说似乎微不足道,但是由于遮挡,快速运动,运动模糊以及随时间的显着变化,视频对象分割对于算法仍然具有挑战性。

2.我们的方法主要是关注于半监督的任务,即知道视频的第一帧。

3.基于深度学习的方法都需要对视频的第一帧进行微调,这样花费了大量的时间

4.所以我们提出了一种基于匹配的方法,即当前帧的前景和背景与第一帧的前景和背景的特征是可以匹配的,为了保证我们的方法可以处理外观和几何的变化,我们使用深度网络自适应提取特征。我们的方法mIoU达到了81.03%【masktrack为80.3,但是是不是都是DAVIS-16?因为这篇的结果是在DAVIS16上】,同时大大减少了运行时间,每帧只需要0.32秒,而之前的masktrack则需要12秒每帧,可以说是大大减少了时间

Related work:

与我们的工作同时,提出了几种最近的方法(都是独立开发的),它们通过基于Part的VideoMatch来提高视频对象分割的速度:基于匹配的视频对象分割跟踪[9],逐像素度量学习[7]或网络调制[56,38]。我们请读者阅读这些作品,以获取更完整的图片。

semi-supervison:

在无监督的视频对象细分设置中,groundtruth和用户标注均不可用。因此,无监督设置需要算法自动发现视频中的显着对象。已经提出了不同的方法,例如运动分析[39],轨迹聚类[37]和基于显着性的时空传播[12、20]来识别前景对象。最近,已经讨论了基于深网的方法[47,48,22]。


object tracking:

半监督视频对象分割和对象跟踪[58、28]与我们的方法有关,因为它们都可以跟踪整个视频中的对象。但是,这两个任务的输出格式不同。视频对象分割的输出是像素级分mask,而对象跟踪的输出是界定对象位置和比例的边界框。根据跟踪文献,Bertinetto等人的工作。 [3]在精神上类似于我们提出的方法,因为它们通过匹配来制定跟踪。然而,由于输出的差异,Bertinetto等人。 [3]通过将整个补丁与给定模板进行卷积来计算相关性,然而我们提出了针对像素分割的软匹配【什么是软匹配?】。

matching:

在过去的几十年中,对图像匹配[33,18]进行了广泛的研究。随着深度学习的成功,研究重点从使用手工特征的匹配[35]转移到了深度特征[57]。通常计算提取的特征图之间的相关性,以找到对应关系[45],以估计光流场[10]和几何变换[46]。由于匹配的目的是找到点对点的对应关系,因此,如果将匹配算法直接应用于分割,则结果将很嘈杂【为什么会很嘈杂】。为了处理嘈杂的预测,我们提出了一种软匹配机制,该机制可以估算不同段之间的相似性得分,如下所述。

Matching based Video Object Segmentation:

overview:

一些预设变量:

假定一个视频有T帧,,第一帧的ground truth为,其中W,H分别代表图像的宽和高,为第一帧的Ground truth, N表示为第一帧里的目标数量,预测第一帧以后的帧的结构,我们表示为

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值