在计算机视觉领域,CNN自2012年以来已经成为视觉任务的主导模型。随着出现了越来越高效的结构,计算机视觉和自然语言处理越来越收敛到一起,使用Transformer来完成视觉任务成为了一个新的研究方向,以降低结构的复杂性,探索可扩展性和训练效率。
视觉应用
虽然Transformer
结构在NLP
领域得到了广泛的应用,但是在视觉领域的应用仍然有限。在视觉领域,attention
或者是和CNN
网络共同使用或者是代替CNN
中特定的组件。想要将 Transformer
应用到视觉任务中,我们首先需要构建一些类似于VGG
、ResNet
之类的backbone
。
以下是几个在相关工作中比较知名的项目:
- DETR(End-to-End Object Detection with Transformers),使用Transformers进行物体检测和分割。
- Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE),使用Transformer 进行图像分类。
- Image GPT(Generative Pretraining from Pixels),使用Transformer进行像素级图像补全,就像其他GPT文本补全一样。
- End-to-end Lane Shape Prediction with Transformers,