ViViT: A Video Vision Transformer（论文笔记）

Gεorge

已于 2023-12-27 10:36:55 修改

阅读量507

点赞数 1

分类专栏： paper览胜文章标签： transformer 深度学习计算机视觉

于 2021-12-05 14:51:39 首次发布

本文链接：https://blog.csdn.net/weixin_43883362/article/details/121664313

版权

该文提出了一种纯Transformer架构的视频分类模型，通过时空标记提取和transformer编码处理视频数据。为解决长序列问题，文章介绍了几种模型变量分解策略，并探讨了预训练模型在小规模数据集上的应用。实验表明，提出的模型在多个视频分类基准上取得最佳结果，同时分析了模型结构、正则化和输入参数对性能的影响。

摘要由CSDN通过智能技术生成

摘要

我们提出了单纯基于transformer的视频分类模型，借鉴了此类模型在图像分类方面的最新成功。我们的模型从输入视频中提取时空标记，然后用一系列transformer层进行编码。为了处理视频中遇到的长序列标记，我们提出了几个有效的模型变量，这些变量分解了输入的空间和时间维度。虽然已知基于transformer的模型只有在有大量训练数据集的情况下才有效，但我们展示了如何在训练过程中有效地调整模型，并利用预训练图像模型来训练相对较小的数据集。我们进行了全面的消融研究，并在多个视频分类基准上取得了最先进的结果，包括Kinetics 400和600,Epic kitchen, Something-Something v2和Moments in Time，优于基于深度3D卷积网络的先前方法。

介绍

灵感：VIT–基于纯transformer的图像分割模型
目标：探索transformer在视频任务上的应用
核心思想：将视频的空间和时间特征token化，使用transformer框架来处理这些token。
改进：使用多种方法来将模型沿时间和空间维度分解；使用多种正则化技巧来降低模型对训练数据量的要求
模型结构：
在这里插入图片描述
图1

Video Vision Transformers模型

VIT模型简介

将从图片中提取token，输入transformer

提取视频token

两种方法：

Uniform frame sampling
按顺序从每帧中提取patch，转换为token，这样的token不包含temporal信息，时间信息隐藏在token的排列顺序里，由后续的transformer来发现。
Tubelet embedding
类似3D卷积，这样提取的token包含temporal信息