文章目录
LaSOT:A High-quality Benchmark for Large-scale Single Object Tracking 2019
炫酷的官网页面,可以下载数据集、有相应的评测工具和其他tracker的结果
We have compiled a large-scale dataset by gathering 1400 sequences with 3.52 million frames form YouTube under Creative Commonns licence.
它是一个long-term tracking ,这个数据集有1400个视频序列,每个视频平均有2512帧,最短的视频也有1000帧,最长的包含11397帧。分为70个类别(真的很多了,一般只要二十左右,那会有更多的吗?答案是肯定的,GOT-10k),每个类别由二十个视频序列组成。每个视频序列包含不同的挑战,这些类别是从ImageNet的1000类中挑选出来的。那每一帧是怎么标注的呢?是人工标注,很小心的密集标注。更重要的是,它考虑了视觉外观和自然语言的联系,不仅标注了bbox而且增加了丰富的自然语言描述,
旨在鼓励对于跟踪,结合视觉和自然语言特征的探索。这里提供1400个句子描述。那这些视频是怎么来的呢?从YouTube搜索的,5000中挑选了1400,但是这1400个视频也不能直接使用,因为有大量的无关内容,例如对于运动者的介绍,所以得过滤掉这些不相关的内容。
从下面可以看到它只有227G,比TrackingNet小很多。
LaSOT的一些属性、原则(也是它的贡献点),也是对现存在的问题的改进: