用于大规模图像缩放识别的Vision Transformer

最新推荐文章于 2024-08-18 13:51:27 发布

woshicver

最新推荐文章于 2024-08-18 13:51:27 发布

阅读量2.6k

点赞数 1

文章标签：网络 python 计算机视觉机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woshicver/article/details/109396700

版权

本文介绍了ICLR 2021会议上的一篇论文，研究了如何使用Transformer进行大规模图像识别。传统上，Transformer在NLP领域表现出色，但由于计算复杂度问题，应用于计算机视觉较少。新方法将图像分成小块，通过Transformer处理，解决了图像识别中的长期依赖问题，且在大量数据训练后性能提升。预训练模型有望在多个基准测试中实现最先进的准确性。

摘要由CSDN通过智能技术生成

在本文中，主要在不作太多技术细节的情况下，解释2021 ICLR会议的新论文“an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale”的研究成果。

自1960年以来深度学习就已经问世，但促使深度学习真正来到了前列的，是2012年的AlexNet模型，一个卷积网络，由Alex Krizhevsky设计，赢得了年度ImageNet图像分类竞赛的冠军。

AlexNet：https://en.wikipedia.org/wiki/AlexNet
ImageNet图像分类竞赛：https://en.wikipedia.org/wiki/ImageNet

在接下来的几年里，深度计算机视觉技术经历了一场真正的革命，每年都会出现新的卷积体系结构（GoogleNet、ResNet、DenseNet、EfficientNet等），以在ImageNet和其他基准数据集（如CIFAR-10、CIFAR-100）上创下新的精度记录。

下图显示了自2011年以来ImageNet数据集上机器学习模型的最高精度的进展情况。

然而，在过去的几年里，深度学习最有趣的发展不是在图像领域，而是在自然语言处理（NLP）中࿰

最低0.47元/天解锁文章

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。