[Video Transformer] VTN: Video Transformer Network

https://arxiv.org/abs/2102.00719

SlowFast/README.md at master · bomri/SlowFast · GitHub

ICCV2021

Video action recognition

总结:相当于把CNN+LSTM结构中的LSTM替换为VTN

适用于处理长视频,在inference时可以一次输入整个视频

模型框架是模块化的,2D backbone可以换成不同的网络,注意力模块也可以设置为不同的transformer模型,修改分类头可以适用于不同的视频任务。

与当前其他的视频处理网络不同,VTN不使用3D卷积,而是采用2D的空间卷积来得到空间信息,并利用Longformer进行时间处理。

总体结构一共可以分为三个部分:

  • 2D 空间特征提取:从每一帧图像中提取特征,可以用CNN也可以用VIT等纯transformer。可以随机初始化并和Longformer一起训练,也可以使用预训练模型并固定权重。
  • temporal-base encoder:使用了 Longformer 结构。《 Longformer: The long-document transformer》专为处理长序列而设计。在inference时一次处理整个视频。在feature sequence前面加入了一个class token,
  • classification MLP head:Longformer 的结果其实也是一个向量,最终需要通过FC进行分类。MLP包含两个线性层,Dropout,一个GELU非线性层。

使用一些spatial backbones pre-trained on 2D images来测试VTN的效果:

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值