计算机视觉中的Transformer

本文梳理了Transformer在计算机视觉领域的研究进展,包括DETR和ViT两条主要路线。DETR开创了目标检测的新范式,Deformable DETR则针对DETR的训练速度和小目标识别进行了改进。ViT在图像分类上展示了优越性,DieT通过数据高效策略降低需求,T2T-ViT和PVT则提出改进的tokenization和金字塔结构,提升性能。Transformer在CV的广泛应用和持续创新表明其重要性。
摘要由CSDN通过智能技术生成

自从2017年Attention Is All You Need论文,Transformer热度持续升高,因为其解决的是"seqence to sequence"属性的问题,所以先是在自然语言处理中席卷各类问题,其代表性工作为BERT。BERT截至今天在Github已有27.2k⭐,火的我没词了…
在这里插入图片描述
就好比约5年前,循环神经网络(RNN)先火遍NLP,随后又入侵CV。现在,Transformer也是在席卷了NLP的各类问题后,正在席卷CV的各类问题。前几天连GANsformer都出来了(这名字起的…读起来就很带劲哈😅)。

本文旨在捋一捋截至目前(2021年3月7日)计算机视觉中的Transformer有代表性的几条研究成果路线,全部是开源了的论文。

综述

分类

20201224-A Survey on Visual Transformer

这篇早一点,主要是整理了一些计算机视觉中Transformer的原理上的问题。

20210104-Transformers in Vision: A Survey

这篇应该是最新的一篇综述吧。它完善而细致地收集了很多研究成果(含200条引用);通读可以基本把握这方向的状态;也可以作为一本论文字典,读一篇具体的论文时可以去查表,或者查表去找某种具体的论文(该综述含有一张很有价值的表格,归纳了主流论文的问题类型、创新点、输入数据类型、监督数据类型、loss项、局限之处的表格)。就像这样:

Task Method Design Highlights (focus on differences with the standard form) Input Data Type Label Type Loss
Image Classification ViT Directly adopted NLP Transformer Encoder for images, Mechanism to linearly embed image patches with positional embedding suitable for the Encoder。 2D Image Class labels Cross-entropy
DeiT Transformer as s student while CNN as a teacher, Distillation tokens to produce estimated labels from teacher, Attention between class and distillation tokens. 2D Image
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值