人体行为识别及摔倒检测相关研究现状

最新推荐文章于 2024-08-03 10:18:58 发布

咬我呀_Gemini

最新推荐文章于 2024-08-03 10:18:58 发布

阅读量1.2w

点赞数 14

本文链接：https://blog.csdn.net/weixin_44014740/article/details/112748150

版权

人体行为识别及摔倒检测相关研究现状

-------本文仅为学习笔记，不做任何商业用途-------

前言

近期由于需要做一些关于人体行为识别及摔倒检测的研究，故进行调研如下，如有错误请指正，欢迎交流。

一、行为识别

在场景识别中，有很大一部分研究是针对于人体行为识别的，主要进行识别的也是一些家庭内的危险行为，如小孩、老人摔倒检测，外来人员闯入等，这些都可归为人体行为识别的范畴之内。
行为识别（action recognition），即根据视频图像完成对于人体动作的区分，这其中包括但不限于摔倒等危险动作。
在行为识别领域，主要包含以下几个子领域：

Untrimmed Video Classification：一段未修剪很长的视频序列，其中在时序上包含多个类型的动作，且其中很多动作并不需要特别关注，所以这类视频需要进行全局分析进行分类。
Trimmed Action Recognition：一段修剪的视频序列包含一类动作，序列时间长度不定，根据视频标签进行学习分类。
Temporal Action Proposal：在一段较长的视频序列中找到含有动作的视频段，并将其提取分类，类似于图像目标检测任务中的候选框提取分类。
Temporal Action Localization：与上述的类似，即在长视频序列中找到存在动作行为的视频段，然后对视频段进行分类研究。
Dense-Captioning Events：对于一段未经修剪的长视频序列，里面可能包含很多动作，找到存在的动作视频行为段，并对其进行视频行为描述。

接下来，将对行为识别领域的相关技术研究现状进行简单的分析和总结。

1.1 行为识别相关数据集

关于行为识别领域内的数据库有很多，而较为常用的主要是UCF101、HMDB51、Kinetics、THUMOS 2014和ActivityNet。
前三个主要用于动作识别分类常用，主要包含大量不同类型的动作，其中UCF101含13320段视频及101类动作、HMDB51含7000段视频及51类动作、Kinetics含300k段视频及400类动作。
后两个主要用于行为检测，数据来源为youtube，也较为常用。

1.2 行为识别技术研究现状

考虑到对于人体行为识别的检测主要是实时的，需要对视频的每一帧进行检测分析，故对于视频序列的处理分析更符合于上述的Temporal Action Proposal、Temporal Action Localization以及Dense-Captioning Events相关领域，当然其他领域的相关研究也会在这里介绍。

1.2.1 DT算法

在这里插入图片描述

图1 DT算法框架图

如上图所示为算法的基本框架，包括密集采样特征点，特征点轨迹跟踪和基于轨迹的特征提取，以及还有后续的特征编码和分类。

在这里插入图片描述

图2 DT算法提取的相关特征

首先进行密集采样特征，将视频的每一帧分为不同尺度，并对不同尺度的图片进行网格划分采集特征点，并在时间序列上跟踪特征点变化，形成轨迹；之后对提取的轨迹进行操作，得到轨迹描述子和运动/结构描述子（HOG,HOF,MBH），并对其使用Bag of Features的方法进行特征编码，并利用SVM分类器分类。
可以看到，DT算法可对任意长度的视频序列进行特征提取，提取主要基于人体光流变化的相关特征。
来源：论文Dense Trajectories and Motion Boundary Descriptors for Action Recognition