简介
最近接触了一些卷积神经网络的只是以及其在视频动作分类中的应用,本文对其进行一下小结。CNN在图像任务,比如ImageNet上取得很好的效果,但是在视频相关的任务中还没有太大的进展。取得比较好效果的有两篇文章,一篇是Stanford发表在CVPR2014上的《Large-scale Video Classification with Convolutional Neural Networks》,另外一篇是NIPS2014上的《Two-Stream Convolutional Networks for Action Recognition in Videos》,下面分别介绍一下两篇文章的大致内容:
Large-scale Video Classification with Convolutional Neural Networks
在这篇文章中我认为其主要的贡献有两点:一个是实验了不同的卷积神经网络的结果,从而在CNN中表示出视频的时间信息,二是介绍了一种multi-resolution的CNN结构,从而减少了网络的参数,加速了训练的时间。
Fusion Method
这部分内容比较了如图所示的四种不同的CNN结构:
- single frame:就是把一帧帧的图像分别输入到CNN中去,和普通的处理图像的CNN没有区别。
- late fution:把相聚L的两帧图像分别输入到两个CNN中