(论文总结)Video Transformer Network

在这里插入图片描述

论文地址:论文地址

一、目前存在的问题及相应的改进

1、3D卷积来提取时序特征的计算量问题

**问题:**在视频任务下,传统卷积方法中为了更好的提取时序特征,一般采用3D的卷积方式,其中的计算量不管怎么改进也避免不了计算量大的问题。

**改进:**文中使用最新的2D结构来提取空间信息,然后在结果特征上采用注意力机制来添加时序信息。此方法的输入只需要RGB视频帧流即可,不需要类似光流这样的其他流。

2、针对长序列时序信息的提取

**问题:**Transformers一开始用于具有连续性的语言模型上,在视频任务中由于视频帧也具有连续性,所以也同样可以使用。但还是有个问题是,视频太长了,怎么处理长时间的序列问题是个需要研究的地方,最近的工作都没有从这方面下手。

**改进:**基于Longformer,其提出的注意力机制方式能够超越短片段处理,保持全局性,并可以注意所有输入序列的标记。

在这里插入图片描述

3、关于速度和精确性的提高

对比其他算法,本文的算法能够在同样的epoch训练下获得最高的精度,并且训练的速度比最新的快16.1倍。

4、同期方法

**(1)Non-local Neural Networks:**利用注意力计算输入的不同位置的联系,表明了注意力机制在视频任务中有着很好的表现。

但是他需要预计算的特征信息,不能够有效的支持端到端的特征提取网络。

(2)SlowFast:探索了一条流下两个不同速率的分支来分别提取空间和长短的时序特征。

(3)X3D:基于SlowFast,介绍了一种拓展维度的结构,包括时序、帧速、宽度、深度、bottleneck宽度。与SlowFast相比,他在相同精确的条件下能够更加轻量。

**(4)Transformer在其他领域的方法:**图像分类中的ViT和DeiT;目标检测的DETR

二、本文内容

1、主要结构

(1)2D的空间骨干网络可以使用任意的,用于特征提取

(2)基于注意力的模块可以堆叠更多的层,或者设置不同的Transformer模型,这样可以处理长序列。

(3)分类的head能够被修改为处理不同的视频任务,比如动作识别。

下图为文章主要结构:

在这里插入图片描述

f(x)是个2D空间网络,用于特征提取;接着是一个基于时间注意力的编码器,使用特征向量φi并结合位置编码。CLS由分类MLP head处理来得到最终的分类预测。

2、对于空间骨干网络的选取

由下图作出了对比。

在这里插入图片描述

三、实验

使用了预训练模型ImageNet,用的数据集为Kinetics-400,为了表现出文中方法的优越性,作出了一下对比。ViT-B-VTN方法与SlowFast最好的效果对比的情况下,训练的epoch只需25即可达到这样的效果,并且训练和验证的时间也只是130和52.当然参数量还是一个问题。

在这里插入图片描述

四、总结

后续可基于VTN作出一些工作,效果要比3D卷积好特别多。文中的方法在计算量、运行时间、精确度都有着非常好的进步,足以可以见Transformer在视频任务中的表现是很不错的。

积好特别多。文中的方法在计算量、运行时间、精确度都有着非常好的进步,足以可以见Transformer在视频任务中的表现是很不错的。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值