3D Convolutional Neural Networks for Human Action Recognition

最新推荐文章于 2021-04-11 21:14:02 发布

小菜鸡拉

最新推荐文章于 2021-04-11 21:14:02 发布

阅读量2.5k

点赞数

分类专栏：视频目标检测

本文链接：https://blog.csdn.net/xiaofei0801/article/details/72899366

版权

本文探讨了3D卷积神经网络（CNN）在视频中人体动作识别的应用，提出3D卷积能捕获空间和时间特征，提高了在TRECVID数据上的性能。3D CNN架构通过多通道信息处理，结合高级运动特征增强，实现对复杂环境行为的准确识别。

摘要由CSDN通过智能技术生成

1 INTRODUCTION

识别现实世界中的人类行为，可以发现各种领域的应用，包括智能视频监控，客户属性和购物行为分析。然而，由于混乱的背景，遮挡和视角变化等[1]，[2]，[3]，[4]，[5]，[6]，[7]，[8]，[9]，[10] [11]，准确地识别行为是一项非常具有挑战性的任务。目前的大多数方法[12]，[13]，[14]，[15]，[16]关于视频拍摄的情况，做出了某些假设（例如，小尺度和视角变化）。然而，这种假设在现实环境中很少存在。此外，大多数方法遵循两步法，其中第一步在原始视频帧上计算特征，第二步是基于获得的特征学习分类器。在现实世界的情况下，很少知道什么特征对于手头的任务很重要，因为特征的选择是高度依赖于问题的。特别是对于人类行为的识别，不同的动作类别在外观和运动模式方面可能会显得不同。

深度学习模型[17]，[18]，[19]，[20]，[21]是一类机器，可以通过从低级别构建高级特征来学习层次特征。这种学习机器可以使用监督或无监督的方法进行训练，并且所得到的系统已被证明可以在视觉对象识别中产生竞争性能[17]，[19]，[22]，[23]，[24]，人类行为识别[25]，[26]，[27]，自然语言处理[28]，音频分类[29]，脑机交互[30]，人类跟踪[31]，图像恢复[32]，去噪[33] ，和分割任务[34]。卷积神经网络（CNNÿ