[Video Transformer] VTN: Video Transformer Network

最新推荐文章于 2024-06-20 09:37:48 发布

Cherry_qy

最新推荐文章于 2024-06-20 09:37:48 发布

阅读量1.3k

点赞数 2

分类专栏： video transformer 文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_46746665/article/details/122567520

版权

6 篇文章 7 订阅

订阅专栏

ICCV2021

Video action recognition

总结：相当于把CNN+LSTM结构中的LSTM替换为VTN

适用于处理长视频，在inference时可以一次输入整个视频

模型框架是模块化的，2D backbone可以换成不同的网络，注意力模块也可以设置为不同的transformer模型，修改分类头可以适用于不同的视频任务。

与当前其他的视频处理网络不同，VTN不使用3D卷积，而是采用2D的空间卷积来得到空间信息，并利用Longformer进行时间处理。

总体结构一共可以分为三个部分：

2D 空间特征提取：从每一帧图像中提取特征，可以用CNN也可以用VIT等纯transformer。可以随机初始化并和Longformer一起训练，也可以使用预训练模型并固定权重。
temporal-base encoder：使用了 Longformer 结构。《 Longformer: The long-document transformer》专为处理长序列而设计。在inference时一次处理整个视频。在feature sequence前面加入了一个class token，
classification MLP head：Longformer 的结果其实也是一个向量，最终需要通过FC进行分类。MLP包含两个线性层，Dropout，一个GELU非线性层。

使用一些spatial backbones pre-trained on 2D images来测试VTN的效果：

关注

专栏目录