当你还在研究目标检测中one2one的时候,当你还在死磕模型lantency的时候,当你还在折腾模型NPU部署的时候,当...,我不得不提一下:该重视Vision Transformer了。自2020年5月,Facebook AI提出了DeTr后,Transformers在计算机视觉领域无处不在的。包括且不限于以下内容:
1 推荐2篇综述
论文:A Survey on Visual Transformer
链接:https://arxiv.org/abs/2012.12556
Transformer 是一种基于自注意力机制的深度神经网络,最初应用于自然语言处理领域。受到Transformer 强大的表示能力的启发,研究人员提议将Transformer 扩展到计算机视觉任务。与其他网络类型(例如卷积网络和循环网络)相比,基于Transformer 的模型在各种视觉基准上显示出竞争力甚至更好的性能。在本文中,我们通过将这些视觉Transformer模型分类为不同的任务,并分析了这些方法的优缺点,提供了文献综述。特别地,主要类别包括基本图像分类,高级视觉,低级视觉和视频处理。由于自注意力是 Transformer 的基本组成部分,因此也简要回顾了计算机视觉中的自注意力,包括有效的Transformer 方法,可将Transformer 推入实际应用。最后,我们讨论了视觉变压器的进一步研究方向。
论文:Transformers in Vision: A Surv