摘要
我们提出了单纯基于transformer的视频分类模型,借鉴了此类模型在图像分类方面的最新成功。我们的模型从输入视频中提取时空标记,然后用一系列transformer层进行编码。为了处理视频中遇到的长序列标记,我们提出了几个有效的模型变量,这些变量分解了输入的空间和时间维度。虽然已知基于transformer的模型只有在有大量训练数据集的情况下才有效,但我们展示了如何在训练过程中有效地调整模型,并利用预训练图像模型来训练相对较小的数据集。我们进行了全面的消融研究,并在多个视频分类基准上取得了最先进的结果,包括Kinetics 400和600,Epic kitchen, Something-Something v2和Moments in Time,优于基于深度3D卷积网络的先前方法。
介绍
灵感:VIT–基于纯transformer的图像分割模型
目标:探索transformer在视频任务上的应用
核心思想:将视频的空间和时间特征token化,使用transformer框架来处理这些token。
改进:使用多种方法来将模型沿时间和空间维度分解;使用多种正则化技巧来降低模型对训练数据量的要求
模型结构:
图1
相关工作
CNN, 3D CNN, transformer, VIT
Video Vision Transformers模型
VIT模型简介
将从图片中提取token,输入transformer
提取视频token
两种方法:
-
Uniform frame sampling
按顺序从每帧中提取patch,转换为token,这样的token不包含temporal信息,时间信息隐藏在token的排列顺序里,由后续的transformer来发现。
-
Tubelet embedding
类似3D卷积,这样提取的token包含temporal信息
transformer模型
本文设计了多种模型结构,分别采用不同方式来分解处理时间和空间信息。
- Spatio-temporal attention
此模型直接将所有token信息使用一个transformer来处理,时间复杂度较高,为 O