目标跟踪数据集整理(二)--LaSOT


LaSOT:A High-quality Benchmark for Large-scale Single Object Tracking 2019

炫酷的官网页面,可以下载数据集、有相应的评测工具和其他tracker的结果

We have compiled a large-scale dataset by gathering 1400 sequences with 3.52 million frames form YouTube under Creative Commonns licence.
它是一个long-term tracking ,这个数据集有1400个视频序列,每个视频平均有2512帧,最短的视频也有1000帧,最长的包含11397帧。分为70个类别(真的很多了,一般只要二十左右,那会有更多的吗?答案是肯定的,GOT-10k),每个类别由二十个视频序列组成。每个视频序列包含不同的挑战,这些类别是从ImageNet的1000类中挑选出来的。那每一帧是怎么标注的呢?是人工标注,很小心的密集标注。更重要的是,它考虑了视觉外观和自然语言的联系,不仅标注了bbox而且增加了丰富的自然语言描述,旨在鼓励对于跟踪,结合视觉和自然语言特征的探索。这里提供1400个句子描述。那这些视频是怎么来的呢?从YouTube搜索的,5000中挑选了1400,但是这1400个视频也不能直接使用,因为有大量的无关内容,例如对于运动者的介绍,所以得过滤掉这些不相关的内容。
从下面可以看到它只有227G,比TrackingNet小很多。

LaSOT的一些属性、原则(也是它的贡献点),也是对现存在的问题的改进:
在这里插入图片描述在这里插入图片描述

Introduction

Visual tracking: aiming to locate an arbitrary target in a video with an initial bounding box in the first frame,has been one of the most important problems in computer vision with many applications such as video surveillance,robotics,human-computer interaction and so forth.

先看一下目前跟踪数据集的一个现状,如下图所示,存在以下问题:
(1)Small-scale :存在的数据集很少有多于400个视频序列的,所以大多使用图像分类的预训练模型为了深度特征提取或者使用视频目标检测数据集训练为了深度特征学习,结果肯定suboptimal ,因为不同的任务有本质的区别
(2)Lack of high-quality dense annotations :高准确的密集标注(每帧)对于跟踪是很重要的。
**有一个值得注意的是。现在提出的benchmarks 朝向 large-scale and long-term tracking**
但是它们的标注大多是 semi-automatic(generated by a tracking algorithm),如我上篇博客所讲的[TrackingNet](https://blog.csdn.net/xwmwanjy666/article/details/98525030) 或者是稀疏标注(每30帧标注一次) 在这里插入图片描述
(3)Short-term tracking :一个预期的跟踪器是希望在相对长的时间内可以定位目标,期间 目标可以消失,然后重现。看上图,现有的benchmarks关注short-term tracking,平均序列的长度少于600帧,并且目标总之出现在视频中。因此在短序benchmarks上评估不能反映在真实世界应用上的真实表现,限制了实际发展
(4)Category bias :本文提出 一个鲁棒的跟踪系统应该对目标的类别不敏感,所以应该避免 category bias or class imbalance.然而现有的benchmarks通常仅由很少的类别组成,造成了不平衡。再看一下LaSOT有70个类别.

看一下和其他数据集的对比,不论是视频序列数(1400)还是每个视频中最小最大平均总共帧数,会有消失的情况,目标类别(70),类别是否平衡呢,挑战属性呀,还有语言特征,许多数据集也提出处理以上问题,long-term tracking , large-scale,precise dense annotations,但是他们中没有人解决以上所有问题,感觉是不是完胜呢!!! 总结很到位,体现出自己的优势,motivation很好,让人很容易接受!棒!在这里插入图片描述

Related Work

dense benchmark :
OTB:OTB2013\OTB2015
TC-128(specifically designated to evaluatecolor-enhancedtrackers)
VOT
NUS-PRO (365 videos,human,annotated with both target location and occlusion level for evaluation)
UVA(UAV123 and UAV20L): comprising 123 short and 20 long sequences
NfS(provides 100 sequences with a high framerate of 240 fps, aiming to analyze the effects ofappearance variations on tracking performance.)
GOT-10k:(10000 videos,rich motion trajectories)
LaSOT
嗯 各有各的特点
sparse or semi-automatice annotations:ALOV(每5帧标注一次),TrackingNet,OxUvA(come from YT-BB,long-term,每30帧标注一次)
在这里插入图片描述

The Proposed LaSOT Benchmark

Annotation

if the target object appears in the frame,a labeler manually draws/edits its bounding box;otherwise,the labeler gives an absent label,either out-of-view or full occlusion.
每个视频都有图片,full_occlusion.txt,groundtruth.txt,nlp.txt,out_of_view.txt,如图所示:
在这里插入图片描述
exception:mouse tail->exclude the tails of mice when drawing their bounding boxed
下图是一些列子:
在这里插入图片描述

Attributes(14)

在这里插入图片描述

Evaluation Protocols

Protocol I: 全部的1400视频序列作为评估使用
Protocol II: 把LaSOT分为训练和测试子集。根据80/20分,也就是对于每一个类别,我们挑选16个视频作为训练,4个作为测试。最后有1120个训练视频,280个测试视频。
对于Evaluation metric,按照OTB2015,执行One-Pass Evaluation(OPE),测量 precision normalized precision success
我们在LaSOT评估了35个算法
最后放一张,在六个挑战下,不同跟踪器的表现情况:(剩下的评测图可以看论文,总之提升空间很大在这里插入图片描述

  • 8
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值