NTU-RGB+D数据集

NTU-RGB+D数据集

论文连接:NTU-RGB+D

一、基本介绍

该数据集包含60个种类的动作(见表1),共56880个样本,其中有40类为日常行为动作,9类为与健康相关的动作,11类为双人相互动作。这些动作由40个年龄从10岁到35岁的人完成。该数据集由微软 Kinect v2传感器采集得到,并且使用了三个不同角度的摄像机,采集的数据形式包括深度信息、3D骨骼信息、RGB帧以及红外序列。

表1 动作种类

在这里插入图片描述

二、两个评价准则

NTU数据集在划分训练集测试集时采用了两种不同的划分标准。

1、Cross-Subject

Cross-Subject按照人物ID来划分训练集和测试集,训练集40320个样本,测试集16560个样本,其中将人物ID为 1, 2, 4, 5, 8, 9, 13, 14, 15,16, 17, 18, 19, 25, 27, 28, 31, 34, 35, 38的20人作为训练集,剩余的作为测试集。

2、 Cross-View

相机来划分训练集和测试集,相机1采集的样本作为测试集,相机2和3作为训练集,样本数分别为18960和37920。
说到相机就不得不说相机的设置规则,三个相机,相机的垂直高度都是一样的,水平角度分别为-45°、0°和45°,每个动作执行人做两遍相同的动作,一个次对着左边的相机,一次对着右边的相机,也就是说最后会采集到2×3个不同角度的信息。最后,设置不同的相机高度及距离以增加视角多样性,并赋予一个设置号(1-17),见表2。

表2 设置号

在这里插入图片描述

三、NTU的骨架坐标数据集

由于笔者的研究方向是基于骨架的动作识别,所以主要和读者分享NTU中骨架数据集的相关内容,其他形式的数据集读者可进入NTU-RGB+D论文中了解更多的内容。
NTU采集到的骨架点共25个,如下图所示。
在这里插入图片描述

1、文件命名方式

首先,数据集中有56880个.skeleton文件,每个文件代表一个样本,文件命名方式如下图所示。
在这里插入图片描述
S后面跟的是设置号(1-17),正如表2所示
C后面跟的是相机ID(1-3)
P后面跟的是人物ID(1-40)
R后面跟的是动作执行的遍数(1-2)
A后面跟的是动作的分类(1-60)

2、数据的格式

可以用excel打开文件,里面的内容如下所示。
在这里插入图片描述
第1行为该样本的帧数
第2行为执行动作的人数
第3行共有10个数据分别代表'bodyID', 'clipedEdges', 'handLeftConfidence','handLeftState', 'handRightConfidence', 'handRightState','isResticted', 'leanX', 'leanY', 'trackingState'
第4行代表关节点数
第5-29行为25个关节点的信息,每个关节点有12个数据,分别代表'x', 'y', 'z', 'depthX', 'depthY', 'colorX', 'colorY','orientationW', 'orientationX', 'orientationY','orientationZ', 'trackingState'
以上为一帧的信息,其他帧都是上述表示方式。

NTU坐标形式的数据集在此下载,提取码oeef

### NTU RGB+D 数据集概述 NTU RGB+D 动作识别数据集由56,880个动作样本构成,每个样本包含了RGB视频、深度图序列、3D骨架数据以及红外视频。这些数据通过三个Microsoft Kinect v.2摄像头同步录制而成[^2]。 #### 下载指南 有兴趣的研究人员可以通过注册账户来访问该数据集。具体流程涉及提交申请表格并同意发布的条款与条件。一旦请求得到验证和批准,申请人将获得用于下载两个版本——即“NTU RGB+D”及其扩展版“NTU RGB+D 120”的唯一登录凭证[^1]。 #### 主要特征描述 - **多模态记录**:提供四种不同类型的感知信息—彩色图像(RGB)、距离测量(Depth Map)、骨骼姿态(Skeleton Data),还有近红外光谱(Infrared Video)。 - **高分辨率素材**:RGB视频采用全高清标准(1920x1080),而其他两种视觉形式则保持一致的空间维度(512x424)。这使得即使是在复杂背景下也能捕捉到清晰的动作细节。 - **丰富的空间覆盖范围**:利用三台摄像机从多个角度同时拍摄同一场景,从而增强了对于人体运动的理解能力,并减少了遮挡问题的影响。 - **精确的骨骼追踪**:每帧内可检测多达25个人体关键部位的位置坐标,形成完整的三维结构表示,这对于分析特定姿势或手势非常有用。 ```python import numpy as np # 假设我们有一个包含单个动作实例的数据文件 'sample_data.npz' data = np.load('sample_data.npz') rgb_video = data['rgb'] # 彩色视频数组 (T,H,W,C) depth_maps = data['depth'] # 深度映射数组 (T,H,W) skeletons = data['skel'] # 骨骼数据矩阵 (T,J,D), J=25 关节点数, D=3 维度(x,y,z) print(f"RGB video shape: {rgb_video.shape}") print(f"Depth maps shape: {depth_maps.shape}") print(f"Skeleton joints shape: {skeletons.shape}") ```
评论 38
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值