CVPR| 2021 Video Swin Transformer阅读笔记

ycolourful

已于 2022-03-22 20:04:25 修改

阅读量2.3k

点赞数

文章标签： transformer 计算机视觉

于 2022-03-22 19:56:18 首次发布

本文链接：https://blog.csdn.net/weixin_59340037/article/details/123635235

版权

Video Swin Transformer 阅读笔记
论文
 代码
研究背景
在计算机视觉领域，模型正在从CNN 向Transformer转变，并且纯transformer架构在主要的视频识别方向获得了最高的精度，这些模型建立在能够在时间和空间维度上将patches全局连接起来的transformer层上。CNN向transformer的转变开始于vision transformer(ViT),它通过 transformer encoder对非重叠的图像快的空间关系进行全局建模，由于在图像上取得的巨大成功，使得开始了对于基于transformer的视频识别任务的研究。
之前的对于视频主干结构就是将用于图像的主干结构扩展到时间轴即可，如C3D，对于时间和空间联合建模，但这种方法既不经济也不容易优化，因此提出了一种对时空域进行分解的方法，该方法在速度和精度上有所折中。并且最初将transformer用于视频识别是，也采用过分解的方法，通过分解编码器或者分解自注意力，这种方法能够极大的减小模型的规模，同时不会大幅降低模型的性能。
研究目的
在本文中，我们提出了一种用于视频识别的纯transformer骨干结构,并且在效率上超过分解模型，该方法利用了视频的固有时空局部性，时空距离越接近的像素越有可能被关联，
在本文中我们在视频transformer中引入局部归纳偏执，与之前的方法相比，该方法在速度和精度上具有更好的权衡，通过时空分解&#x