https://arxiv.org/abs/2102.00719
SlowFast/README.md at master · bomri/SlowFast · GitHub
ICCV2021
Video action recognition
总结:相当于把CNN+LSTM结构中的LSTM替换为VTN
适用于处理长视频,在inference时可以一次输入整个视频
模型框架是模块化的,2D backbone可以换成不同的网络,注意力模块也可以设置为不同的transformer模型,修改分类头可以适用于不同的视频任务。
与当前其他的视频处理网络不同,VTN不使用3D卷积,而是采用2D的空间卷积来得到空间信息,并利用Longformer进行时间处理。
总体结构一共可以分为三个部分:
- 2D 空间特征提取:从每一帧图像中提取特征,可以用CNN也可以用VIT等纯transformer。可以随机初始化并和Longformer一起训练,也可以使用预训练模型并固定权重。
- temporal-base encoder:使用了 Longformer 结构。《 Longformer: The long-document transformer》专为处理长序列而设计。在inference时一次处理整个视频。在feature sequence前面加入了一个class token,
- classification MLP head:Longformer 的结果其实也是一个向量,最终需要通过FC进行分类。MLP包含两个线性层,Dropout,一个GELU非线性层。
使用一些spatial backbones pre-trained on 2D images来测试VTN的效果: