介绍:
本阅读笔记是为百度论文复现营准备的针对论文“Representation Flow for Action Recognition“的阅读笔记。
解决的问题:
论文主要针对视频理解的场景解决了两个问题:
1。 传统的光流计算方法效率低,且传统光流图不一定能有效表征视频帧中的动作信息。
2。 已经存在的光流计算网络只能接收传统的RGB帧。
提出的方案:
一种称为光流表示层的网络,实现了TV-L1光流计算方法。
论文的效果体现在两个方面:
- 可以快速的提取动作表示,计算时间比传统方法高效。
- 可以用在CNN特征图后,可以灵活的在网络中放置光流层,并且可以不需要和RGB层融合而直接进行判别输出。
光流表示层网络结构如图1所示。
光流表示层在视频理解网络中的位置如图2所示。
有价值的建议:
- 在网络的哪一层使用光流层。作者发现,在第一层CNN和第四层CNN之间使用光流层效果较好。
- 多个光流层堆叠效果不好,但是在两个光流层间加一个卷积层效果反而会更好。
- 对于光流层施加光流层可以判别相同动作出现的位置,即flow of flow的概念。
感想:
作者提出的光流表示层作为一个模块,在各种需要使用光流