Moments in Time:IBM-MIT联合提出最新百万规模视频动作理解数据集

本文介绍了MIT-IBM Watson AI Lab发布的Moments-in-Time数据集,这是一个专注于动作分类的视频理解数据集,拥有百万规模的视频和多样性的动作标签。数据集构建包括动作字典的建立和视频的爬取与标注,具有较高的标注质量和类别多样性。此外,文章探讨了数据集中动作与场景、物体的相关性,并提出了对数据集设计的一些疑问和挑战。
摘要由CSDN通过智能技术生成

在过去一年中,视频理解相关的领域涌现了大量的新模型、新方法,与之相伴的,今年也出现了多个新的大规模的视频理解数据集。近期,MIT-IBM Watson AI Lab 就推出了一个全新的百万规模视频理解数据集Moments-in-Time[1]。虽然没有之前的YouTube-8M数据集大,但应该是目前多样性,差异性最高的数据集了。该数据集的任务仍然为视频分类任务,不过其更专注于对“动作”的分类,此处的动作为广义的动作或动态,其执行者不一定是人,也可以是物体或者动物,这点应该是该数据集与现有数据集最大的区分。本文中简单的统称为“动作”。


本文主要对这篇数据集的论文进行介绍,数据集地址是Moments-in-Time。此外,该数据集也将参与ActivityNet Challenge 2018作为其中的一个任务。


数据集概览

这部分主要对数据集的基本情况和特性进行介绍,大概可以总结为以下几点

  • 共有100,0000个视频,每个视频的长度相同,均为3s
  • 每个视频有一个动作标签(后续版本可能拓展为多标签),此处的动作仅为动词,比如“opening”就为一个标签(与之不同,其他数据集经常会采用动名词组的形式如”opening the door”)
  • 动作主体可以是人,动物,物体乃至自然现象。
  • 数据集的类内差异和类间差异均很大。
  • 存在部分或完全依赖于声音信息的动作,如clapping(拍手)

由上述描述可以看出,由于超大的数据量以及多样性,这个数据集是相当难的,下图则为该数据集的一个例子。可以看出,一个动作类别可以由多种动作主体完成,从而从视觉上看的差异性相当的大,动作的概念可以说是相当抽象了。

下面我对作者构建这个数据集的方式进行介绍,这部分内容也有助于对该数据集的理解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值