Abstract:
论文灵感来源于:实例分割和目标跟踪
特点:1.我们的模型在每帧的基础上进行,并由前一帧的输出导向下一帧中的关注对象 2.一个高度准确的视频目标分割可以用一个卷积神经网络并用静态的图片来训练 3.使用在线和离线的策略,前者产生了一个refined mask从之前帧的评估而后者则是可以捕获特定实例目标的外观。4.我们的方法可以处理不同的输入标注如bounding box和分割,同时可以利用任意数量的标注的帧。5.所以我们的系统可以适应不同的应用根据不同的需求。6.在我们的广泛评估中,我们在三个不同的数据集上获得了竞争性结果,而与输入注释的类型无关。

Introduction:
1.使用卷积神经网络很难处理一些视频的问题,因为创建一个足够大的,且逐像素标注的数据对于视频来说往往是难以承担的。
2.视频目标分割是分割相同的目标在所有的帧里面,现在的一些顶级方法用了要么是插入box的跟踪方法要么是分割, 或者是通过第一帧的Mask的标注传给CRF或者grabcut-like技术。(这里用了引用,可以看看,而且没有理解这里的意思)
3.对于一个新的视频帧,它被之前评估的帧的mask来引导,所以这个方法叫引导实例分割,据我所知,它是代表了一个第一次全训练方法对于视频目标分割。
4.我们的方法足够高效,一次只需要考虑一帧,跟以前的方法不同的是,他们需要多个帧,或者一个全局帧的连接,甚至整个视频序列才能取得一个好的结果,而且我们的方法还可以输入bounding box也可以达到很好的效果,所以我们的方法更为灵活。
5.非常关键的一点就是使用在线和离线两种训练方式,离线就是使用变换和粗化技术大概估计一个mask,在线就是根据以前的跟踪任务(引用12, 32)引入到视频目标分割。
【主要的三点贡献:
1. 使用了图像数据集来训练,
2. 不需要建立帧与帧之间的关系
3. 有mask通道】
Related work:
Local propagation

最低0.47元/天 解锁文章
1562

被折叠的 条评论
为什么被折叠?



