[Video Transformer] UniFormer:Unified Transformer for Efficient Spatial-Temporal Representation Lear

UniFormer:Unified Transformer for Efficient Spatial-Temporal Representation Learning

https://arxiv.org/pdf/2201.04676.pdf

https://github.com/Sense-X/UniFormer

ICLR 2022

1 Introduction

从高维视频中学习多尺度时空语义是很困难的,因为视频帧之间的全局依赖很复杂。

在图1中,TimeSformer在浅层中学习视频信息,但是空间和时间注意力都过于冗余。

空间注意力主要集中于相邻的token(3*3局域中),忽略同一帧中的其他位置。

时间注意力主要关心相邻帧的token,忽略更远帧的信息。

另外,这样的局部信息是从所有层的全局toekn-to-token 相似性比较中学习得到的,计算量很大。

从图2可以看到,TimeSformer计算量大的同时,效果并不算非常好。

因此,我们将3D卷积和时空自注意力结合在一个简洁的transformer结构中,achieve a preferable balabce between efficiency and effectiveness,在计算量和精确度上达到平衡。

UniFormer与其他transformer的区别主要在于:

  • relation aggregator分别处理 video redundancy and dependency,而不是在所有层都使用自注意力机制。在浅层,aggregator利用一个小的learnable matrix学习局部的关系,通过聚合小的3D邻域的token信息极大地减少计算量。在深层,aggregator通过相似性比较学习全局关系,可以灵活的建立远距离视频帧token之间的长程依赖关系。
  • aggregator在所有层中同时编码时空信息
  • 层级化构建网络结构

2 Method

2.1 Overview of Uniformer block

UniFormer包含3个模块:

Dynamic Position Embedding (DPE),

Multi-Head Relation Aggregator (MHRA),

Feed-Forward Network (FFN)

输入Xin(C*T*H*Wÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>