本文基于Multiscale Vision Transformer进行视频动作识别,并附录完整代码。
我们知道,Vision Transformer已经在诸如图像识别、目标检测、语义分割等多项任务中展现出了强大性能。其实,它还可以适用于时序数据,例如视频。本文将详细介绍如何利用Multiscale Vision Transformer(MViT)进行视频动作识别,并利用预训练模型进行推理。尽管存在多种适用于此类任务的模型,但MViT模型在视频识别方面尤为突出,因为它不仅能处理时序数据,还采用了多尺度特征。
MViT模型介绍
先前的模型即传统的Transformer模型,在处理时序数据和视频识别任务时,普遍存在一个主要问题:固定的通道容量(隐藏维度),这意味着无论在网络的哪个层级,每个位置的特征表示都具有相同的维度。这种设计在面对视频数据时可能存在以下问题:
- 灵活性受限:不同层级可能需要不同数量的通道来充分表征各自关注的特征层次。
- 计算效率不优:在处理高分辨率输入时,恒定通道容量可能导致不必要的计算开销,特别是在需要密集运算的早期层。反之,在处理低分辨率输入时,可能浪费了计算资源,因为过多的通道并未带来相应比例的额外信息增益。
MViT模型从架构层面出发ÿ