1. Introduction
卷积神经网络在静态图像识别问题上已被证明是非常成功的,如MNIST,CIFAR和ImageNet[15,21,28]。
通过使用可训练的滤波器和特征池化操作的层次结构,CNN能够自动学习视觉对象识别任务所需的复杂特征,从而比hand-crafted特征实现卓越性能。受到这些积极成果的鼓舞,最近已经提出了几种方法将CNN应用于视频和动作分类任务[2,13,14,19]。
视频分析通过添加时间分量来向识别任务提供更多信息。时间分量可以额外使用运动和其他信息。同时,即使处理短的视频剪辑,任务的计算要求也更高,因为每个视频可能包含数百到数千帧,不是全部帧都是有用的。(不懂)一个简单的方法是将视频帧视为静止图像,并应用CNN来识别每个帧,并在视频级别平均预测结果。然而,由于每个单独的视频帧仅构成视频故事的一小部分,所以这种方法将使用不完整的信息,因此可能容易混淆类别,特别是如果有细粒度的区分或部分视频与感兴趣的动作无关。(不懂)
通过使用可训练的滤波器和特征池化操作的层次结构,CNN能够自动学习视觉对象识别任务所需的复杂特征,从而比hand-crafted特征实现卓越性能。受到这些积极成果的鼓舞,最近已经提出了几种方法将CNN应用于视频和动作分类任务[2,13,14,19]。
视频分析通过添加时间分量来向识别任务提供更多信息。时间分量可以额外使用运动和其他信息。同时,即使处理短的视频剪辑,任务的计算要求也更高,因为每个视频可能包含数百到数千帧,不是全部帧都是有用的。(不懂)一个简单的方法是将视频帧视为静止图像,并应用CNN来识别每个帧,并在视频级别平均预测结果。然而,由于每个单独的视频帧仅构成视频故事的一小部分,所以这种方法将使用不完整的信息,因此可能容易混淆类别,特别是如果有细粒度的区分或部分视频与感兴趣的动作无关。(不懂)
因此,我们假设,学习视频的时间演化的全局描述对准确的视频分类很重要。从建模的角度来看,这是一个挑战,因为我们必须使用固定数量的参数ÿ