vision transformer（vit）笔记

最新推荐文章于 2024-04-20 15:24:59 发布

拾十

最新推荐文章于 2024-04-20 15:24:59 发布

阅读量513

点赞数

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/zzcc00/article/details/127803512

版权

本文深入探讨Vision Transformer（ViT）模型，从将图片转换为token序列，到多头自注意力机制、编码器和MLP Head的运用。尽管ViT在大数据集上表现出色，但在小数据集上的应用仍是个挑战。

摘要由CSDN通过智能技术生成

1.论文：AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
2.全体作者：Alexey Dosovitskiy∗,†, Lucas Beyer∗, Alexander Kolesnikov∗, Dirk Weissenborn∗,Xiaohua Zhai∗, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer,Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby∗,†