VIS--Video Instance Segmentation：MASKtrack-RCNN 论文翻译理解

最新推荐文章于 2024-04-19 09:52:00 发布

听我的错不了

最新推荐文章于 2024-04-19 09:52:00 发布

阅读量2.7k

点赞数 2

分类专栏：目标跟踪学习日常

本文链接：https://blog.csdn.net/weixin_45032769/article/details/109296890

版权

本文提出视频实例分割任务，结合Mask R-CNN提出MASKtrack-RCNN，旨在检测、分割及跟踪视频中的实例。文中创建了YouTube-VIS数据集，并通过实验对比展示了MASKtrack-RCNN的优越性，为视频理解研究提供了新方向。

摘要由CSDN通过智能技术生成

大佬学习笔记1：https://blog.csdn.net/Rlin_by/article/details/104474345?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160370104919725222439676%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=160370104919725222439676&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allfirst_rank_v2~rank_v28-1-104474345.first_rank_ecpm_v3_pc_rank_v2&utm_term=Classifying%2C+Segmenting%2C+and+T&spm=1018.2118.3001.4187
大佬学习笔记2：
https://blog.csdn.net/Rlin_by/article/details/103916047?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param

摘要

本文提出了一种新的计算机视觉任务–视频实例分割。这项新任务的目标是同时检测、分割和跟踪视频中的实例。也就是说，首次将图像实例分割问题扩展到视频域。为了促进这一新任务的研究，我们提出了一个名为YouTube-Vis的大规模基准测试，该基准测试由2883个高分辨率YouTube视频、40个类别的标签集和131k高质量实例掩码组成。
此外，我们还提出了一种新的算法，称为MASK-Track R-CNN。我们的新方法在Mask R-CNN中引入了一个新的跟踪分支来同时执行检测、分割和跟踪任务。最后，我们在新的数据集上对所提出的方法和几条强基线进行了评估。实验结果表明了该算法的优越性，并为以后的改进提供了新的思路。我们相信，视频实例分割任务将推动社区沿着视频理解的研究方向前进。

！ 在Mask-RCNN的基础上加一个在一段video clip中可以propagate instance masks的模块。这样可以参照clip最中间那个instances segmentation 来predict clip-level的instance tracks

1 引言

图像和视频的分割是计算机视觉的基本问题之一。在图像域，Hariharan等人首先提出了实例分割的任务，即同时检测和分割图像中的对象实例。 [11]从那时起，由于计算机视觉的重要性，它在计算机视觉领域引起了极大的关注。本文将图像域的实例分割问题推广到视频域。与图像实例分割不同的是，新问题的目标是同时检测、分割和跟踪视频中的对象实例。图1展示了一个示例视频，其中包含关于此问题的基本事实注释。自然，我们将新任务命名为视频实例分割。这项新任务为需要视频编辑、自动驾驶和增强现实等视频级对象掩码的应用程序开辟了可能性。据我们所知，这是第一个解决视频实例分割问题的工作。在这里插入图片描述
图1.视频实例分割示例。这三行分别显示了视频中的图像帧、视频实例注释和视频实例预测。相同颜色的蒙版属于同一对象实例。
在每个边界框的顶部给出gt和预测对象类别。
这里的label是 类别和gt坐标
视频实例分割比图像实例分割更具挑战性，因为它不仅需要单独帧上的实例分割，而且还需要跨帧跟踪实例。
另一方面，视频内容包含了比单一图像更丰富的信息，如不同目标的运动模式和时间一致性，从而为目标识别和分割提供了更多的线索。视频实例分割也与几个现有任务相关。
例如，视频对象分割[3、22、23]旨在分割和跟踪视频中的对象，但不需要识别对象类别。视频对象检测的目的是检测和跟踪对象，但不涉及对象分割。
视频实例分割研究较少的一个潜在原因是缺乏大规模的数据集。尽管存在用于其他任务的视频分割数据集[7，23，34]，但没有一种数据集直接适用于视频实例分割。给定一个视频，我们的任务需要标记预定义类别集的所有实例的掩码和帧之间的实例标识。现有的视频分割数据集或者没有详尽的标签[23，34]，或者没有对象标

最低0.47元/天解锁文章

听我的错不了

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
VIS--Video Instance Segmentation：MASKtrack-RCNN 论文翻译理解

大佬学习笔记1：https://blog.csdn.net/Rlin_by/article/details/104474345?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160370104919725222439676%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=16037010491972522243967
复制链接

扫一扫