TimeSFormer

最新推荐文章于 2024-07-02 09:25:27 发布

武乐乐~

最新推荐文章于 2024-07-02 09:25:27 发布

阅读量952

点赞数 7

文章标签：人工智能

本文链接：https://blog.csdn.net/wulele2/article/details/140083147

版权

论文名称：Is Space-Time Attention All You Need for Video Understanding?
开源地址
发表时间：ICML2021
作者及组织：Gedas Bertasius , Heng Wang , Lorenzo Torresani，来自Facebook。

前言

因为视频类似NLP，每帧可视为word，而整个视频序列可视为一个句子。因此本文借助VIT用于解决视频分类任务。

1、方法

1.1.输入

在这里插入图片描述

以上图为例，假设输入 $\in \mathbb{R}^{H*W*3*F}$ ，首先将每帧patch化：转化成 $N = (HW/P^2)$ 个 $P^2$ 大小的 token，每个token表示为 $x_{(p,t)} \in \mathbb{R}^{3P^2}$ 其中 $p$ 和 $t$ 分别表示“第 $t$ 帧中的第 $p$ 个token”，最终一个视频序列转化出来 $(NF + 1)$ 个token，其中额外多出的一个token即VIT中的 $cls\_token$ 。
然后将每个token经过一个嵌入矩阵，并加上一个可学习的位置编码：

$\begin{equation} z_{p,t}^{(0)} = Ex_{(p,t)} + e_{(p,t)}^{pos} \end{equation}$

其中上标0可视为第0个Block。

1.2.Block

首先将输入 $z_{p,t}^{(l-1)} $ 经过多头自注意力模块，其中 $q, k, v$ 的计算方式为：

$\begin{equation} q_{p,t}^{(l,a)} = W_Q^{(l,a)} LN(z_{p,t}^{(l-1)}) \in \mathbb{R}^{D_h} \\ k_{p,t}^{(l,a)} = W_K^{(l,a)} LN(z_{p,t}^{(l-1)}) \in \mathbb{R}^{D_h} \\ v_{p,t}^{(l,a)} = W_V^{(l,a)} LN(z_{p,t}^{(l-1)}) \in \mathbb{R}^{D_h} \end{equation}$

其中， $l, a$ 分别表示第 $L$ 个Block和第 $a$ 个Head Attn。

之后自注意力的相似性矩阵：

$\begin{equation} \alpha_{p,t}^{(l,a)} = SM\left(\frac{q_{(p,t)}^{(l,a)^T}}{\sqrt{(D_h)}}.\left[k_{(0,0)}^{(l,a)} \{k_{p',t'}^{(l,a)}\}_{p'=1,...,N\\t'=1,...,F} \right]\right ) \tag{1} \end{equation}$

其中 $p^{'} 和 t^{'}$ 表示空间维度和时间维度的自注意力。

当然，本文在公式1的基础上拓展出两个自注意力模块：分别是“space sa” 和 “time sa”。具体公式来说比较简单：固定住公式1中右下角下标即可：

$\begin{equation} \alpha_{p,t}^{(l,a)} = SM\left(\frac{q_{(p,t)}^{(l,a)^T}}{\sqrt{(D_h)}}.\left[k_{(0,0)}^{(l,a)} \{k_{p',t'}^{(l,a)}\}_{p'=1,...,N} \right]\right ) \tag{2} \end{equation}$

$\begin{equation} \alpha_{p,t}^{(l,a)} = SM\left(\frac{q_{(p,t)}^{(l,a)^T}}{\sqrt{(D_h)}}.\left[k_{(0,0)}^{(l,a)} \{k_{p',t'}^{(l,a)}\}_{t'=1,...,F} \right]\right ) \tag{3} \end{equation}$