3D Convolutional Neural Networks for Human Action Recognition

本文探讨了3D卷积神经网络(CNN)在视频中人体动作识别的应用,提出3D卷积能捕获空间和时间特征,提高了在TRECVID数据上的性能。3D CNN架构通过多通道信息处理,结合高级运动特征增强,实现对复杂环境行为的准确识别。
摘要由CSDN通过智能技术生成

1 INTRODUCTION

       识别现实世界中的人类行为,可以发现各种领域的应用,包括智能视频监控,客户属性和购物行为分析。 然而,由于混乱的背景,遮挡和视角变化等[1],[2],[3],[4],[5],[6],[7],[8],[9],[10] [11],准确地识别行为是一项非常具有挑战性的任务。目前的大多数方法[12],[13],[14],[15],[16]关于视频拍摄的情况,做出了某些假设(例如,小尺度和视角变化)。 然而,这种假设在现实环境中很少存在。此外,大多数方法遵循两步法,其中第一步在原始视频帧上计算特征,第二步是基于获得的特征学习分类器。在现实世界的情况下,很少知道什么特征对于手头的任务很重要,因为特征的选择是高度依赖于问题的。特别是对于人类行为的识别,不同的动作类别在外观和运动模式方面可能会显得不同。

       深度学习模型[17],[18],[19],[20],[21]是一类机器,可以通过从低级别构建高级特征来学习层次特征。这种学习机器可以使用监督或无监督的方法进行训练,并且所得到的系统已被证明可以在视觉对象识别中产生竞争性能[17],[19],[22],[23],[24],人类行为识别[25],[26],[27],自然语言处理[28],音频分类[29],脑机交互[30],人类跟踪[31],图像恢复[32],去噪[33] ,和分割任务[34]。卷积神经网络(CNNÿ
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值