UniFormer:Unified Transformer for Efficient Spatial-Temporal Representation Learning
https://arxiv.org/pdf/2201.04676.pdf
https://github.com/Sense-X/UniFormer
ICLR 2022
1 Introduction
从高维视频中学习多尺度时空语义是很困难的,因为视频帧之间的全局依赖很复杂。
在图1中,TimeSformer在浅层中学习视频信息,但是空间和时间注意力都过于冗余。
空间注意力主要集中于相邻的token(3*3局域中),忽略同一帧中的其他位置。
时间注意力主要关心相邻帧的token,忽略更远帧的信息。
另外,这样的局部信息是从所有层的全局toekn-to-token 相似性比较中学习得到的,计算量很大。
从图2可以看到,TimeSformer计算量大的同时,效果并不算非常好。


因此,我们将3D卷积和时空自注意力结合在一个简洁的transformer结构中,achieve a preferable balabce between efficiency and effectiveness,在计算量和精确度上达到平衡。
UniFormer与其他transformer的区别主要在于:
- relation aggregator分别处理 video redundancy and dependency,而不是在所有层都使用自注意力机制。在浅层,aggregator利用一个小的learnable matrix学习局部的关系,通过聚合小的3D邻域的token信息极大地减少计算量。在深层,aggregator通过相似性比较学习全局关系,可以灵活的建立远距离视频帧token之间的长程依赖关系。
- aggregator在所有层中同时编码时空信息
- 层级化构建网络结构
2 Method
2.1 Overview of Uniformer block

UniFormer包含3个模块:
Dynamic Position Embedding (DPE),
Multi-Head Relation Aggregator (MHRA),
Feed-Forward Network (FFN)
输入Xin(C*T*H*Wÿ

最低0.47元/天 解锁文章
1485

被折叠的 条评论
为什么被折叠?



