ViViT: A Video Vision Transformer(论文笔记)

该文提出了一种纯Transformer架构的视频分类模型,通过时空标记提取和transformer编码处理视频数据。为解决长序列问题,文章介绍了几种模型变量分解策略,并探讨了预训练模型在小规模数据集上的应用。实验表明,提出的模型在多个视频分类基准上取得最佳结果,同时分析了模型结构、正则化和输入参数对性能的影响。
摘要由CSDN通过智能技术生成

摘要

我们提出了单纯基于transformer的视频分类模型,借鉴了此类模型在图像分类方面的最新成功。我们的模型从输入视频中提取时空标记,然后用一系列transformer层进行编码。为了处理视频中遇到的长序列标记,我们提出了几个有效的模型变量,这些变量分解了输入的空间和时间维度。虽然已知基于transformer的模型只有在有大量训练数据集的情况下才有效,但我们展示了如何在训练过程中有效地调整模型,并利用预训练图像模型来训练相对较小的数据集。我们进行了全面的消融研究,并在多个视频分类基准上取得了最先进的结果,包括Kinetics 400和600,Epic kitchen, Something-Something v2和Moments in Time,优于基于深度3D卷积网络的先前方法。

介绍

灵感:VIT–基于纯transformer的图像分割模型
目标:探索transformer在视频任务上的应用
核心思想:将视频的空间和时间特征token化,使用transformer框架来处理这些token。
改进:使用多种方法来将模型沿时间和空间维度分解;使用多种正则化技巧来降低模型对训练数据量的要求
模型结构:
在这里插入图片描述
图1

相关工作

CNN, 3D CNN, transformer, VIT

Video Vision Transformers模型

VIT模型简介

将从图片中提取token,输入transformer

提取视频token

两种方法:

  1. Uniform frame sampling
    按顺序从每帧中提取patch,转换为token,这样的token不包含temporal信息,时间信息隐藏在token的排列顺序里,由后续的transformer来发现。
    在这里插入图片描述

  2. Tubelet embedding
    类似3D卷积,这样提取的token包含temporal信息
    在这里插入图片描述

transformer模型

本文设计了多种模型结构,分别采用不同方式来分解处理时间和空间信息。

  1. Spatio-temporal attention
    此模型直接将所有token信息使用一个transformer来处理,时间复杂度较高,为 O
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值