D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese

最新推荐文章于 2022-06-01 20:36:43 发布

VIP文章听我的错不了

最新推荐文章于 2022-06-01 20:36:43 发布

阅读量796

点赞数 2

分类专栏：学习日常目标跟踪

本文链接：https://blog.csdn.net/weixin_45032769/article/details/109153711

版权

Abstract 摘要

基于模板Z的判别跟踪器由于其鲁棒性而成为当前的主流跟踪范例，但仅限于包围盒跟踪BBOX和有限范围的变换模型，这降低了它们的定位精度。 提出了一种可区分的小样本分割跟踪器D3S，缩小了视觉对象跟踪和视频对象分割之间的差距。一个单阶段网络应用两个具有互补几何属性的目标模型，一个对包括非刚性变形在内的大范围变换不变，另一个假设刚性对象，以同时实现高鲁棒性和在线目标分割。在没有按数据集微调和仅针对分段进行培训作为主要输出的情况下，D3S在VOT2016、VOT2018和GOT-10k基准测试中的表现优于所有跟踪器，在TrackingNet上的性能接近最先进的跟踪器。 D3S在视频对象分割基准上的表现优于领先的分割跟踪器SiamMask，性能与顶级视频对象分割算法不相上下，同时运行速度快一个数量级，接近实时。此处提供PyTorch实现：https://github.com/alanlukezic/d3s

！：引入了一个网络模块，对是否是刚性非刚性模型进行判断，但是如何判断值得留意，还有就是写法，这个地方很有可能加入我们的工作。

1.导论

视觉目标跟踪是计算机视觉的核心问题之一。最常见的公式考虑在给定单个训练图像的情况下报告视频的每一帧中的目标位置的任务。当前，在评估[22，24]中执行得最好的主要跟踪范例是相关边界框跟踪[11，3，33，2，54，28]，其中由多通道矩形模板表示的目标通过模板和搜索区域之间的互相关来定位。
最先进的基于模板的跟踪器应用高效的暴力搜索来定位目标。 **这种策略适用于像平移和比例改变这样的低维变换，**但是对于更一般的情况(例如引起纵横比改变和旋转)变得效率低下。作为折衷方案，现代跟踪器将近似穷举搜索与采样和/或边界框精化/回归网络[10，27]相结合，用于宽高比估计。但是，这些方法仅限于轴对齐的矩形。
在这里插入图片描述

图1.D3S跟踪器通过两个具有互补几何属性的模型来表示目标，一个模型对包括非刚性变形(GIM几何不变模型)在内的大范围变换不变，另一个模型假定具有运动的刚性对象通过欧几里得变换很好地近似(GEM几何约束欧几里德模型)。 D3S利用GIM和GEM的互补优势，提供最先进的本地化和精确分割，即使在存在实质性变形的情况下也是如此。
当边界框是目标的较差近似时，基于高维模板的变换的估计是不可靠的[31]。这是很常见的-考虑一下例如。伸长的、旋转的、可变形的物体，或张开双手的人。 在这些情况下，最准确和定义良好的目标位置模型是按像素分割的二进制掩模。 如果需要这样的输出，跟踪成为最近由Davis[38，40]和YoutubeVOS[51]挑战普及的视频对象分割任务。
与跟踪不同，视频对象分割挑战通常考虑在低背景干扰存在的情况下观察100帧以下的大目标。因此，顶级视频对象分割方法在短期跟踪场景中表现不佳[24]，其中目标覆盖图像的一小部分，在较长时间内实质上改变其外观，并且在杂乱的背景上移动。 最好的跟踪器应用视觉模型自适应，但在分割错误的情况下，它会导致不可恢复的跟踪失败[41]。 正因为如此，在过去，分割在基于模板的跟踪器[1]、约束DCF学习[33]和通过3D模型构建的跟踪[20]中仅扮演辅助角色。
！：这里的大概意思就是说分割任务单独执行跟踪效果不好的原因，以及矩阵回归单独执行跟踪不好的原因

最近，SiamRPN[28]跟踪器已经扩展到在两个阶段[50]中产生高质量的分割掩码-目标边界框首先由SiamRPN分支定位，然后由另一个分支仅在该区域内计算分割掩码。两阶段处理错过了联合处理定位和分割以增加稳健性的机会。另一个缺点是使用不能区别地适应变化的场景的固定

最低0.47元/天解锁文章

听我的错不了

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese

Abstract 摘要基于模板Z的判别跟踪器由于其鲁棒性而成为当前的主流跟踪范例，但仅限于包围盒跟踪BBOX和有限范围的变换模型，这降低了它们的定位精度。提出了一种可区分的单镜头分割跟踪器D3S，缩小了视觉对象跟踪和视频对象分割之间的差距。一个单阶段网络应用两个具有互补几何属性的目标模型，一个对包括非刚性变形在内的大范围变换不变，另一个假设刚性对象，以同时实现高鲁棒性和在线目标分割。在没有按数据集微调和仅针对分段进行培训作为主要输出的情况下，D3S在VOT2016、VOT2018和GOT-10k基准
复制链接

扫一扫