UNIFORMER-视频模型（3D CNN和transformer结合）

最新推荐文章于 2024-09-17 19:42:43 发布

AI强仔

最新推荐文章于 2024-09-17 19:42:43 发布

阅读量1.6k

点赞数 1

文章标签： cnn transformer 深度学习

1 简介

本文根据2022年2月《UNIFORMER: UNIFIED TRANSFORMER FOR EFFICIENT

SPATIOTEMPORAL REPRESENTATION LEARNING》翻译总结的。

从一个高维度的视频中学习丰富且多尺度的时空语义信息是一个非常有挑战的任务，因为视频中帧与帧之间有大量的局部冗余（local redundancy）和复杂的全局依赖( global dependency)。相邻帧之间目标移动是微小的。但长范围内的帧中的目标又是动态相关的。

最近的研究主要集中再3D卷积神经网络和视觉transformer。虽然3D卷积可以在一个小的3D领域内（如3*3*3）可以捕捉详细的局部时空特征，减少了相邻帧之间的时空冗余，即有效处理局部信息来控制局部冗余，但因为受限制的接受域，缺乏捕捉全局依赖的能力。而视觉transformer通过自注意力机制可以捕捉长范围的依赖，但又在每个层中所有token的盲目相似比较导致其不能很好的减少局部冗余。如下表所示：

基于此我们提出了Unifified transFormer (UniFormer) ，集成了3D卷积和transformer，在计算量和准确度之间取得了较好的平衡。可以同时处理时空冗余和依赖。代码详见https://github.com/Sense-X/UniFormer.

2 方法

整个模型包括4阶段（stage），每个阶段是一个UniFormer模块，其channel分别为64、128、320、512。每个UniFormer模块包括3部分，分别为：Dynamic Position Embedding (DPE)、Multi-Head Relation Aggregator (MHRA)、Feed-Forward Network (FFN)。前两个阶段（shallow浅）学习局部关系（local），减少计算负担；后两个阶段（deep）学习全局关系（global）。