Fast Template Matching and Update for Video Object Tracking and Segmentation--论文翻译理解

最新推荐文章于 2022-03-29 22:21:08 发布

听我的错不了

最新推荐文章于 2022-03-29 22:21:08 发布

阅读量1.2k

点赞数

分类专栏：目标跟踪学习日常

本文链接：https://blog.csdn.net/weixin_45032769/article/details/109333437

版权

本文提出了一种利用强化学习（RL）改进半监督视频对象分割（VOS）的方法，特别是在仅提供第一帧边界框（bbox）gt信息的多实例VOS任务中。通过RL智能体，该方法能动态决定匹配策略（基于IoU或外观）和是否更新目标模板，从而在提高速度（约10倍）的同时，保持高精度（在Davis 2017数据集上的区域相似度达到69.1%）。该方法解决了基于检测的VOS方法在匹配和模板更新上的问题，提高了VOS任务的准确性和效率。

摘要由CSDN通过智能技术生成

Abstract

在本文中，我们要解决的主要任务是多实例半监督视频对象跨帧序列的分割，其中只提供第一帧的gt信息。基于检测的算法被广泛采用来处理这一任务，挑战在于选择匹配方法来预测结果，以及决定是否使用新预测的结果来更新目标模板。然而，现有的方法以粗糙和僵硬的方式进行这些选择，从而影响了它们的性能。 为了克服这一局限性，我们提出了一种新的方法，利用强化学习来同时做出这两个决策。
具体地，强化学习智能体根据预测结果的质量来学习决定是否更新目标模板。匹配方法的选择将同时基于强化学习代理的动作历史来确定。实验表明，我们的方法在准确率更高的情况下(在Davis 2017数据集上的区域相似度为69.1%)，速度几乎是以前最先进的方法的10倍。

1. Introduction

多实例半监督视频对象分割是一项重要的计算机视觉任务，是场景理解、视频监控、视频编辑等相关任务的基础。 VOS的任务是为视频序列中的每一帧产生实例分割掩码，其中预先提供了第一帧的基本事实。尤其是在变形、运动模糊、光照变化、背景杂乱等情况下，这是一项极具挑战性的任务。在这里插入图片描述
图1.Davis 2017数据集上各种多实例半监督VOS方法的速度-精度权衡。绿色的方法只依赖于第一帧的bbox的gt，而红色的方法依赖于第一帧的像素级的gt。

提供第一帧gt的常用方法有两种，包括mask蒙版和bbox边界框。提供第一帧掩模是一种常规方式，目前已被广泛采用[32，27]。虽然这些方法对于像素级精确的目标对象信息已经取得了很好的性能，但由于为每个视频序列标注像素级gt掩模非常耗时，因此利用这些方法来解决实际的VOS问题成为一项艰巨的任务，特别是当需要在短时间内处理大量视频序列时。为了克服这一问题，受bbox框级别视频对象跟踪(VOT)任务快速发展的启发，一些工作试图依赖第一帧包围bbox来提供目标对象信息，而不是使用第一帧掩码，这大大加快了标注过程，增加了可扩展性。
然而，这种加速是建立在牺牲gt“准确性”的基础上的。这是因为一些背景区域也会被加入到边界框中，这大大增加了VOS任务的难度。这样，为了适应gt真实的特点，现有的基于首帧包围盒的方法大多采用基于检测的算法。一般来说，这些基于检测的方法包括三个步骤。第一步是对整个帧进行对象检测，以使用rpn区域提案网络生成所有可能对象的提案[23]。第二步是在目标对象和所有候选框之间进行匹配过程，找到“正确”的proposal。第三步是对“正确”的建议进行显著性分割，生成最终的分割结果。
然而，依赖于第一帧边界框[31，29]的现有方法在运行速度和精度方面都不如依赖于第一帧掩码的方法。
首先，在运行速度方面，我们观察到大多数现有的基于检测的算法在匹配过程上花费了太多的时间(例如，在[29]中，匹配过程花费了1.425s，分割过程花费了0.025s)，使用几个耗时的网络来评估外观相似度，如重新识别网络[25]和siam风格网络[29]。我们观察到，对于大多数视频序列，根据当前帧的候选建议与获得的前一帧的边界框或分割掩码之间的交集(IOU)进行快速匹配也可以获得可接受的性能，因为目标对象通常在两个连续的帧中缓慢移动或变化。然而，简单的基于iou的匹配方法有时会丢失目标，特别是当目标从视线中消失，然后在不同的位置重新出现时。因此，无论是简单的基于外观的匹配还是简单的基于iou的匹配都不是该任务的最佳解决方案。
其次，VOS精度的主要制约因素是其更新目标模板的方式粗糙。目标模板包含目标的最新信息，包括外观、位置等，在匹配过程中起着至关重要的作用。在当前帧的所有候选提案中，选择与目标模板相似度最高的方案。这样，能否选出正确的方案取决于目标模板的质量及其更新机制。然而，现有方法简单地在完成一帧之后用新预测的结果替换目标模板，而不考虑获得的结果的正确性。
因此，误差会逐渐引入到目标模板中，造成较大的精度下降。
为了在精确度和速度之间取得更好的平衡，“智能开关”需要做出两个重要的决定，包括采用哪种匹配方法，基于iou匹配还是基于外观的匹配，以及是否更新目标模板。为了解决这个问题，我们将其形式化为一个条件决策过程，其中只使用一个简单的强化学习(RL)Agent以灵活的方式进行决策。从图1可以看出，在提供最优匹配方法和更新机制的情况下，即使在一些困难的帧中，我们的算法也可以在不丢失目标的情况下得到显著的加速，导致比以前最先进的方法有更高的准确率。具体地说，我们的方法的运行速度大约是以前最先进的方法的10倍。
综上所述，大多数视频对象跟踪和分割算法包括三个步骤。第一步是对当前帧进行实例分割，生成候选提案池。第二步，根据目标模板信息，进行匹配过程，在所有

最低0.47元/天解锁文章

听我的错不了

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Fast Template Matching and Update for Video Object Tracking and Segmentation--论文翻译理解

Abstract在本文中，我们要解决的主要任务是多实例半监督视频对象跨帧序列的分割，其中只提供第一帧的gt信息。基于检测的算法被广泛采用来处理这一任务，挑战在于选择匹配方法来预测结果，以及决定是否使用新预测的结果来更新目标模板。然而，现有的方法以粗糙和僵硬的方式进行这些选择，从而影响了它们的性能。为了克服这一局限性，我们提出了一种新的方法，利用强化学习来同时做出这两个决策。具体地，强化学习代理根据预测结果的质量学习决定是否更新目标模板。匹配方法的选择将同时基于强化学习代理的动作历史来确定。实验
复制链接

扫一扫

专栏目录