1 INTRODUCTION
识别现实世界中的人类行为,可以发现各种领域的应用,包括智能视频监控,客户属性和购物行为分析。 然而,由于混乱的背景,遮挡和视角变化等[1],[2],[3],[4],[5],[6],[7],[8],[9],[10] [11],准确地识别行为是一项非常具有挑战性的任务。目前的大多数方法[12],[13],[14],[15],[16]关于视频拍摄的情况,做出了某些假设(例如,小尺度和视角变化)。 然而,这种假设在现实环境中很少存在。此外,大多数方法遵循两步法,其中第一步在原始视频帧上计算特征,第二步是基于获得的特征学习分类器。在现实世界的情况下,很少知道什么特征对于手头的任务很重要,因为特征的选择是高度依赖于问题的。特别是对于人类行为的识别,不同的动作类别在外观和运动模式方面可能会显得不同。
深度学习模型[17],[18],[19],[20],[21]是一类机器,可以通过从低级别构建高级特征来学习层次特征。这种学习机器可以使用监督或无监督的方法进行训练,并且所得到的系统已被证明可以在视觉对象识别中产生竞争性能[17],[19],[22],[23],[24],人类行为识别[25],[26],[27],自然语言处理[28],音频分类[29],脑机交互[30],人类跟踪[31],图像恢复[32],去噪[33] ,和分割任务[34]。卷积神经网络(CNNÿ