『深度数据』视频分类数据集·HMDB51介绍

最新推荐文章于 2024-07-21 15:14:01 发布

小宋是呢

最新推荐文章于 2024-07-21 15:14:01 发布

阅读量2.1w

点赞数 11

分类专栏：深度学习数据集

本文链接：https://blog.csdn.net/xiaosongshine/article/details/99700874

版权

深度学习同时被 2 个专栏收录

149 篇文章 37 订阅

订阅专栏

数据集

1 篇文章 0 订阅

订阅专栏

0.背景

主要的视频分类数据集如表所示：

本文详细介绍一个小型方便使用的数据集HMDB51，数据量小，方便使用

1. HMDB51介绍

HMDB51包含51类动作，共有6849个视频，每个动作至少包含51个视频，分辨率320*240,。来自于YouTube，google视频等，共２G．

主页地址：http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
推荐在国内使用迅雷下载，速度较快。

动作主要包括：

1) 一般面部动作微笑，大笑，咀嚼，交谈。

2) 面部操作与对象操作：吸烟，吃，喝。

3) 一般的身体动作：侧手翻，拍手，爬，爬楼梯，跳，落在地板上，反手翻转、倒立、跳、拉、推、跑，坐下来，坐起来，翻跟头，站起来，转身，走，波。

4) 与对象交互动作：梳头，抓，抽出宝剑，运球、高尔夫、打东西，球、挑、倒、推东西，骑自行车，骑马，射球，射弓、枪、摆棒球棍、剑锻炼，扔。

5) 人体动作：击剑，拥抱，踢某人，亲吻，拳打，握手，剑战。

统计

动作类别，身体部位，相机动作，视点

剪辑质量，剪辑持续时间，剪辑持续时间数

视频稳定

与使用从真实世界视频中提取的视频剪辑相关联的一个主要挑战是可能存在显着的相机/背景运动，假设其干扰局部运动计算并且应该被校正。为了消除相机运动，我们使用标准图像拼接技术来对齐剪辑的帧。这些技术通过检测然后匹配两个相邻帧中的显着特征来估计背景平面。使用包括绝对像素差和检测点的欧拉距离的距离测量来计算两帧的对应关系。然后匹配具有最小距离的点，并且使用RANSAC算法来估计所有相邻帧之间的几何变换（对于每对帧独立）。使用这个估计，

原始的IMGS	稳定的IMGS

其他行动识别基准

这项工作是在KTH开始的： KTH数据集包含六种类型的操作，每个操作类别包含100个剪辑。紧随其后的是Weizmann 研究所收集的 Weizmann数据集，其中包含10个动作类别和每个类别9个片段。以受控和简化的设置记录以上两组。然后在INRIA中制作从电影中收集并从电影剧本注释的第一个真实动作数据集; 在好莱坞人类活动集包含8种类型的动作，每动作类的剪辑数量60之间变化- 140每类。它的扩展版本 Hollywood2 Human Actions Set 在十种情景下提供了总共3669个视频，分布在十类人类行为中。该 UCF小组也一直在收集行动数据集，主要来自YouTube。UCF运动有9种类型的运动，共有182个剪辑，UCF YouTube包含11个动作类，UCF50包含50个动作类。我们将在论文中展示来自YouTube的视频可能会受到低级功能的偏见，这意味着低级功能（即颜色和要点）比中级恐惧（即运动和形状）更具辨别力。

数据集	年	＃行动	#CLIPS PER ACTION
KTH	2004年	6	10
魏兹曼	2005年	9	9
IXMAS	2006年	11	33
好莱坞	2008年	8	30-140
UCF体育	2009年	9	14-35
Hollywood2	2009年	12	61-278
UCF YouTube	2009年	11	100
MSR	2009年	3	14-25
奥林匹克	2010	16	50
UCF50	2010	50	分钟。100
HMDB51	2011	51	分钟。101