计算机视觉中的Transformer

Wing Ardium Leviosa

已于 2022-05-08 19:20:45 修改

阅读量2k

点赞数 6

文章标签： transformer 计算机视觉深度学习

于 2021-03-08 00:30:13 首次发布

本文链接：https://blog.csdn.net/weixin_43600140/article/details/114505144

版权

本文梳理了Transformer在计算机视觉领域的研究进展，包括DETR和ViT两条主要路线。DETR开创了目标检测的新范式，Deformable DETR则针对DETR的训练速度和小目标识别进行了改进。ViT在图像分类上展示了优越性，DieT通过数据高效策略降低需求，T2T-ViT和PVT则提出改进的tokenization和金字塔结构，提升性能。Transformer在CV的广泛应用和持续创新表明其重要性。

摘要由CSDN通过智能技术生成

计算机视觉中的Transformer

- 序
- 综述
- - 分类
  - 交集
- DETR路线
- - DETR
  - Deformable DETR
- ViT路线
- 关于炼丹
- Other references

序

自从2017年Attention Is All You Need论文，Transformer热度持续升高，因为其解决的是"seqence to sequence"属性的问题，所以先是在自然语言处理中席卷各类问题，其代表性工作为BERT。BERT截至今天在Github已有27.2k⭐，火的我没词了…
在这里插入图片描述
就好比约5年前，循环神经网络（RNN）先火遍NLP，随后又入侵CV。现在，Transformer也是在席卷了NLP的各类问题后，正在席卷CV的各类问题。前几天连GANsformer都出来了（这名字起的…读起来就很带劲哈😅）。

本文旨在捋一捋截至目前（2021年3月7日）计算机视觉中的Transformer有代表性的几条研究成果路线，全部是开源了的论文。

综述

分类

20201224-A Survey on Visual Transformer

这篇早一点，主要是整理了一些计算机视觉中Transformer的原理上的问题。

20210104-Transformers in Vision: A Survey

这篇应该是最新的一篇综述吧。它完善而细致地收集了很多研究成果（含200条引用）；通读可以基本把握这方向的状态；也可以作为一本论文字典，读一篇具体的论文时可以去查表，或者查表去找某种具体的论文（该综述含有一张很有价值的表格，归纳了主流论文的问题类型、创新点、输入数据类型、监督数据类型、loss项、局限之处的表格）。就像这样：

Task	Method	Design Highlights (focus on differences with the standard form)	Input Data Type	Label Type	Loss
Image Classification	ViT	Directly adopted NLP Transformer Encoder for images, Mechanism to linearly embed image patches with positional embedding suitable for the Encoder。	2D Image	Class labels	Cross-entropy
	DeiT	Transformer as s student while CNN as a teacher, Distillation tokens to produce estimated labels from teacher, Attention between class and distillation tokens.	2D Image