计算机视觉中的Transformer
序
自从2017年Attention Is All You Need论文,Transformer热度持续升高,因为其解决的是"seqence to sequence"属性的问题,所以先是在自然语言处理中席卷各类问题,其代表性工作为BERT。BERT截至今天在Github已有27.2k⭐,火的我没词了…
就好比约5年前,循环神经网络(RNN)先火遍NLP,随后又入侵CV。现在,Transformer也是在席卷了NLP的各类问题后,正在席卷CV的各类问题。前几天连GANsformer都出来了(这名字起的…读起来就很带劲哈😅)。
本文旨在捋一捋截至目前(2021年3月7日)计算机视觉中的Transformer有代表性的几条研究成果路线,全部是开源了的论文。
综述
分类
20201224-A Survey on Visual Transformer
这篇早一点,主要是整理了一些计算机视觉中Transformer的原理上的问题。
20210104-Transformers in Vision: A Survey
这篇应该是最新的一篇综述吧。它完善而细致地收集了很多研究成果(含200条引用);通读可以基本把握这方向的状态;也可以作为一本论文字典,读一篇具体的论文时可以去查表,或者查表去找某种具体的论文(该综述含有一张很有价值的表格,归纳了主流论文的问题类型、创新点、输入数据类型、监督数据类型、loss项、局限之处的表格)。就像这样:
Task | Method | Design Highlights (focus on differences with the standard form) | Input Data Type | Label Type | Loss |
---|---|---|---|---|---|
Image Classification | ViT | Directly adopted NLP Transformer Encoder for images, Mechanism to linearly embed image patches with positional embedding suitable for the Encoder。 | 2D Image | Class labels | Cross-entropy |
DeiT | Transformer as s student while CNN as a teacher, Distillation tokens to produce estimated labels from teacher, Attention between class and distillation tokens. | 2D Image |