目录
2、Two-Stream Convolutional Networks
5、Two-Stream Inflated 3D ConvNets
8、VTN(Video Transformer Network)
9、ViViT: A Video Vision Transformer
0、Introduction
本文主要介绍基于深度学习的视频理解模型,传统手工特征模型会在涉及到时补充,手工特征方法一般出现在2014年之前的文章里(手工特征对深入学习这个领域很重要)。本系列主要介绍视频理解影响力较大的深度学习网络模型,每个模型的论文分为泛读、精读、总结和验证四个部分。有一篇2020年的综述文章可做参考( A Comprehensive Study of Deep Video Action Recognition-2020年12月),2021之后主要是将transformer引入到网络中,视频transformer可参考综述文章(Video Transformers: A Survey-2022年1月)。
A Comprehensive Study of Deep Video Action Recognition论文下载:
https://arxiv.org/pdf/2012.06567.pdfhttps://arxiv.org/pdf/2012.06567.pdf
Video Transformers: A Survey论文下载:
https://arxiv.org/pdf/2201.05991.pdfhttps://arxiv.org/pdf/2201.05991.pdf
1、ConvNet+LSTM
ConvNet+LSTM论文下载:
待续...
2、Two-Stream Convolutional Networks
2.1 双流网络泛读
待续...
3、3D ConvNets
3.1 C3D泛读
4、Temporal Segment Networks
4.1TSN泛读:
5、Two-Stream Inflated 3D ConvNets
5.1 I3D泛读
待续...
6、Temporal Shift Module
TSM论文下载:
6.1TSM泛读
7、SlowFast Networks
SlowFast论文下载:
7.1 SlowFast泛读
8、VTN(Video Transformer Network)
VTN(Video Transformer Network)论文下载:
https://arxiv.org/pdf/2102.00719.pdfhttps://arxiv.org/pdf/2102.00719.pdf
9、ViViT: A Video Vision Transformer
ViViT论文原文下载:
https://arxiv.org/pdf/2103.15691.pdfhttps://arxiv.org/pdf/2103.15691.pdf
10、TimeSformer
TimeSFormer论文下载:Is Space-Time Attention All You Need for Video Understanding?https://arxiv.org/pdf/2102.05095.pdf
10.1 TimeSformer泛读:
待续...
Multiscale Vision Transformers
CoAtNet: Marrying Convolution and Attention for All Data Sizes
Multiview Transformers for Video Recognition
专题待续。。。