在本文中,主要在不作太多技术细节的情况下,解释2021 ICLR会议的新论文“an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale”的研究成果。
自1960年以来深度学习就已经问世,但促使深度学习真正来到了前列的,是2012年的AlexNet模型,一个卷积网络,由Alex Krizhevsky设计,赢得了年度ImageNet图像分类竞赛的冠军。
AlexNet:https://en.wikipedia.org/wiki/AlexNet
ImageNet图像分类竞赛:https://en.wikipedia.org/wiki/ImageNet
在接下来的几年里,深度计算机视觉技术经历了一场真正的革命,每年都会出现新的卷积体系结构(GoogleNet、ResNet、DenseNet、EfficientNet等),以在ImageNet和其他基准数据集(如CIFAR-10、CIFAR-100)上创下新的精度记录。
下图显示了自2011年以来ImageNet数据集上机器学习模型的最高精度的进展情况。
然而,在过去的几年里,深度学习最有趣的发展不是在图像领域,而是在自然语言处理(NLP)中