在过去一年中,视频理解相关的领域涌现了大量的新模型、新方法,与之相伴的,今年也出现了多个新的大规模的视频理解数据集。近期,MIT-IBM Watson AI Lab 就推出了一个全新的百万规模视频理解数据集Moments-in-Time[1]。虽然没有之前的YouTube-8M数据集大,但应该是目前多样性,差异性最高的数据集了。该数据集的任务仍然为视频分类任务,不过其更专注于对“动作”的分类,此处的动作为广义的动作或动态,其执行者不一定是人,也可以是物体或者动物,这点应该是该数据集与现有数据集最大的区分。本文中简单的统称为“动作”。
本文主要对这篇数据集的论文进行介绍,数据集地址是Moments-in-Time。此外,该数据集也将参与ActivityNet Challenge 2018作为其中的一个任务。
数据集概览
这部分主要对数据集的基本情况和特性进行介绍,大概可以总结为以下几点
- 共有100,0000个视频,每个视频的长度相同,均为3s
- 每个视频有一个动作标签(后续版本可能拓展为多标签),此处的动作仅为动词,比如“opening”就为一个标签(与之不同,其他数据集经常会采用动名词组的形式如”opening the door”)
- 动作主体可以是人,动物,物体乃至自然现象。
- 数据集的类内差异和类间差异均很大。
- 存在部分或完全依赖于声音信息的动作,如clapping(拍手)
由上述描述可以看出,由于超大的数据量以及多样性,这个数据集是相当难的,下图则为该数据集的一个例子。可以看出,一个动作类别可以由多种动作主体完成,从而从视觉上看的差异性相当的大,动作的概念可以说是相当抽象了。
下面我对作者构建这个数据集的方式进行介绍,这部分内容也有助于对该数据集的理解。