Moments in Time：IBM-MIT联合提出最新百万规模视频动作理解数据集

最新推荐文章于 2024-09-03 08:31:10 发布

Will-Lin

最新推荐文章于 2024-09-03 08:31:10 发布

阅读量2.2k

点赞数

分类专栏：计算机视觉文章标签：深度学习计算机视觉人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzmsltw/article/details/78915585

版权

本文介绍了MIT-IBM Watson AI Lab发布的Moments-in-Time数据集，这是一个专注于动作分类的视频理解数据集，拥有百万规模的视频和多样性的动作标签。数据集构建包括动作字典的建立和视频的爬取与标注，具有较高的标注质量和类别多样性。此外，文章探讨了数据集中动作与场景、物体的相关性，并提出了对数据集设计的一些疑问和挑战。

摘要由CSDN通过智能技术生成

在过去一年中，视频理解相关的领域涌现了大量的新模型、新方法，与之相伴的，今年也出现了多个新的大规模的视频理解数据集。近期，MIT-IBM Watson AI Lab 就推出了一个全新的百万规模视频理解数据集Moments-in-Time[1]。虽然没有之前的YouTube-8M数据集大，但应该是目前多样性，差异性最高的数据集了。该数据集的任务仍然为视频分类任务，不过其更专注于对“动作”的分类，此处的动作为广义的动作或动态，其执行者不一定是人，也可以是物体或者动物，这点应该是该数据集与现有数据集最大的区分。本文中简单的统称为“动作”。

本文主要对这篇数据集的论文进行介绍，数据集地址是Moments-in-Time。此外，该数据集也将参与ActivityNet Challenge 2018作为其中的一个任务。

数据集概览

这部分主要对数据集的基本情况和特性进行介绍，大概可以总结为以下几点

共有100,0000个视频，每个视频的长度相同，均为3s
每个视频有一个动作标签（后续版本可能拓展为多标签），此处的动作仅为动词，比如“opening”就为一个标签（与之不同，其他数据集经常会采用动名词组的形式如”opening the door”）
动作主体可以是人，动物，物体乃至自然现象。
数据集的类内差异和类间差异均很大。
存在部分或完全依赖于声音信息的动作，如clapping（拍手）

由上述描述可以看出，由于超大的数据量以及多样性，这个数据集是相当难的，下图则为该数据集的一个例子。可以看出，一个动作类别可以由多种动作主体完成，从而从视觉上看的差异性相当的大，动作的概念可以说是相当抽象了。

下面我对作者构建这个数据集的方式进行介绍，这部分内容也有助于对该数据集的理解。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。