用于大规模图像缩放识别的Vision Transformer

本文介绍了ICLR 2021会议上的一篇论文,研究了如何使用Transformer进行大规模图像识别。传统上,Transformer在NLP领域表现出色,但由于计算复杂度问题,应用于计算机视觉较少。新方法将图像分成小块,通过Transformer处理,解决了图像识别中的长期依赖问题,且在大量数据训练后性能提升。预训练模型有望在多个基准测试中实现最先进的准确性。
摘要由CSDN通过智能技术生成

在本文中,主要在不作太多技术细节的情况下,解释2021 ICLR会议的新论文“an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale”的研究成果。

自1960年以来深度学习就已经问世,但促使深度学习真正来到了前列的,是2012年的AlexNet模型,一个卷积网络,由Alex Krizhevsky设计,赢得了年度ImageNet图像分类竞赛的冠军。

  • AlexNet:https://en.wikipedia.org/wiki/AlexNet

  • ImageNet图像分类竞赛:https://en.wikipedia.org/wiki/ImageNet

在接下来的几年里,深度计算机视觉技术经历了一场真正的革命,每年都会出现新的卷积体系结构(GoogleNet、ResNet、DenseNet、EfficientNet等),以在ImageNet和其他基准数据集(如CIFAR-10、CIFAR-100)上创下新的精度记录。

下图显示了自2011年以来ImageNet数据集上机器学习模型的最高精度的进展情况。

然而,在过去的几年里,深度学习最有趣的发展不是在图像领域,而是在自然语言处理(NLP)中࿰

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值