ViViT泛读【ViViT: A Video Vision Transformer】

目录

0、前沿

1、标题

2、摘要

3、结论

4、重要图表

5、解决了什么问题

6、采用了什么方法

7、达到了什么效果


0、前沿

        泛读我们主要读文章标题,摘要、结论和图表数据四个部分。需要回答用什么方法,解决什么问题,达到什么效果这三个问题。 需要了解更多视频理解相关文章可以关注视频理解系列目录了解当前更新情况。

1、标题

        ViViT: A Video Vision Transformer

        ViViT:一个视频Transformer模型

2、摘要

        We present pure-transformer based models for video classification, drawing upon the recent success of such models in image classification. Our model extracts spatiotemporal tokens from the input video, which are then encoded by a series of transformer layers. In order to handle the long sequences of tokens encountered in video, we propose several, efficient variants of our model which factorise the spatial- and temporal-dimensions of the input. Although transformer-based models are known to only be effective when large training datasets are available, we show how we can effectively regularise the model during training and leverage pretrained image models to be able to train on comparatively small datasets. We conduct thorough ablation studies, and achieve state-of-the-art results on multiple video classification benchmarks including Kinetics 400 and 600, Epic Kitchens, Something-Something v2 and Moments in Time, outperforming prior methods based on deep 3D convolutional networks. To facilitate further research, we release code at https://github.com/google-research/scenic

        我们借鉴了Transformer在图像分类方面的最新成果,提出了一种基于纯Transformer的视频分类模型。我们的模型从输入视频中提取时空特征信息,然后由一系列的transformer层进行编码。为了处理长序列的视频,我们提出了几个分别输入空间和时间维度的有效的变体模型。虽然已知基于Transformer的模型仅在大型训练数据集可用时有效,但我们展示了如何在训练过程中有效地规范模型,并利用预训练的图像模型能够在相对较小的数据集上进行训练。我们进行了充分的消融实验,并在多个视频分类基准上取得了最先进的结果,包括K400、K600,EK, SSv2和Moments in Time,结果都优于之前基于深度3D卷积方法。为了进一步研究,我们把代码放在了:https://github.com/google-research/scenic

3、结论

        We have presented four pure-transformer models for video classification, with different accuracy and efficiency profiles, achieving state-of-the-art results across five popular datasets. Furthermore, we have shown how to effectively regularise such high-capacity models for training on smaller datasets and thoroughly ablated our main design choices. Future work is to remove our dependence on image-pretrained models. Finally, going beyond video classification towards more complex tasks is a clear next step.

        我们提出了四种用于视频分类的纯Transformer模型,具有不同的准确性和效率,在五个流行的数据集上实现了最先进的结果。此外,我们还展示了如何有效地规范此类大容量模型,以便在较小的数据集上进行训练,并彻底削弱了我们的主模型设计的选择。未来我们的工作是移除对图像预训练的依赖。最后,下一步是希望能迁移都其他任务上。

4、重要图表

        图1:受最近图像分类模型的启发,我们提出了一种用于视频分类的纯Transformer结构。为了有效地处理大量时空信息,我们开发了几种模型变体,使用了不同的空间和时间维度Transformer。如右图所示,这些分解部分对应于不同空间和时间的注意力模式。

         图2:均匀采样:我们简单地采样nt帧,并按照ViT独立嵌入每个2D帧

         图3:管道嵌入:我们提取并线性嵌入跨越时空卷积的非重叠管道。

        图4:分解开的编码器。模型由两个Tranformer编码器串在一起:第一个Transformer是从同一个时间索引中提取的tokens交互信息,以产生每个时间索引的潜在表示信息。第二个Transformer是时间步间的交互信息。因此它对空间和时间信息的“late fusion”。

        图5:分解开的自注意力。在每个transformer块内,多头自我注意力操作被分解成两个操作(由条纹框表示),首先只计算空间上的自注意力,然后是时间上的自注意力。

        表1: Kinetics上ViViT-B使用不同encoding方法和空时注意力。 

        表2:ViViT-B骨干网,tubelet size 为16x2,比较各变体。我们报告了K400和EK的Top1精度。

        表3 :在分解的encoder模型中,改变Transformer数据的影响。在K400上报告了Top1精度。需要注意Lt=0对应于“平均池化”。

        表4:逐步增加正则在EK上Top1的影响。tubelet size 16x2。 

        图7:K400上,ViViT-B和ViViT-L的精度和TFLOPs比较。 

        图8:K400上,不同的ViViT-B变体,改变时间tokens的数据对精度和计算的影响。

        表5:K400上,空间分辨率和空间时间注意力对ViViT-L性能的影响。

        表6:对数据表现都达到最优。

        图9:改变帧数量并按比例增加tokens数量对精度的影响。在K400上,使用ViViT-L分解编码器。一个Kinetics视频包含250帧(每秒25帧,采样10秒),一旦等距时间视图的数量足够“看到”整个视频剪辑,每个模型的准确性就饱和了。观察模型如何处理更多的帧(因此有更多的令牌)实现更高的单视图和多视图精度。

5、解决了什么问题

        如何在视频领域使用图片分类的Transformer。

6、采用了什么方法

        ViViT模型 时空分解的注意力机制。

7、达到了什么效果

        主流视频数据集达到SOTA。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值