ICLR2022《UNIFORMER: UNIFIED TRANSFORMER FOR EFFICIENT SPATIOTEMPORAL REPRESENTATION LEARNING》

在这里插入图片描述
论文下载链接:https://arxiv.org/pdf/2201.04676.pdf
代码链接:https://github.com/Sense-X/UniFormer

1. 动机

高维视频具有大量的局部冗余和复杂的全局依赖关系,而该研究主要是由3D卷积神经网络和视觉Transformer驱动。3D卷积虽然能抑制局部冗余,但由于接受域有限,它缺乏捕获全局依赖的能力;视觉Transformer在self-attention的帮助下擅长捕捉全局依赖,但由于各层token之间存在盲目相似性比较,限制了减少局部冗余。

2. 方法

在这里插入图片描述
为了克服时空冗余和依赖的问题,本文提出Unified transFormer (UniFormer)框架,如上图所示。每个UniFormer block主要由三部分组成:Dynamic Position Embedding (DPE), Multi-Head Relation Aggregator (MHRA), 和Feed-Forward Network (FFN)。最核心是MHRA和DPE的设计:

  • MHRA
    如上所述,问题是要解决大的局部冗余和复杂的全局依赖,以实现高效和有效的时空表示学习。不幸的是,流行的3D cnn和时空Transformer只关注这两个挑战中的一个。因此,这里设计了一个Relation Aggregator (RA),其可以将3D卷积和时空self-attention灵活地统一在一个简洁的transformer块中,分别解决了浅层和深层的视频冗余和依赖。具体地,具体来说,MHRA通过multi-head融合进行token关系学习(RA的关键是如何在视频中学习 A n A_n An):
    在这里插入图片描述
    Local MHRA: (stage1和stage2中使用)在浅层中,目标是学习小三维社区中局部时空背景下的详细视频表示。这与3D卷积滤波器的设计有着相似的见解。我们将token affinity设计为一个在局部3D邻域中操作的可学习的参数矩阵(这个与local self-attention设计很像),其值仅取决于token之间的相对3D位置.
    在这里插入图片描述
    Global MHRA: (在stage3和stage4中使用)在深层,关注于在全局视频片段中捕获long-term token依赖关系。这自然与self-attention的设计有着相似的见解。
    在这里插入图片描述
  • DPE
    扩展了conditional position encoding (CPE)设计的(DWConv是指简单的零填充的3D depth convolution)
    在这里插入图片描述

3. 部分实验结果

实验主要在两个数据集中进行:widely-used Kinetics-400,Kinetics-600。在数据集Something-Something V1&V2进行迁移学习的验证。
1) 与 Convolution+Transformer网络对比
在这里插入图片描述
2)与SOTA方法对比
在这里插入图片描述
在这里插入图片描述
3)消融实验
UniFormer vs. Convolution: Does transformer-style FFN help?和How much does local MHRA help?(如下图a)
在这里插入图片描述
UniFormer vs. Transformer: Is joint or divided spatiotemporal attention better?和Is our UniFormer more transferable?(如上图a和下图c)
在这里插入图片描述
Does dynamic position embedding matter to UniFormer?
通过动态位置嵌入,在ImageNet和Kinetics-400上,UniFormer将top-1精度提高0.5%和1.7%。
4)ImageNet数据集上SOTA方法对比
在这里插入图片描述
写这篇博客仅是为了方便自己,有任何表述不正确的,请大家多多指教O(∩_∩)O

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值