李沐(沐神)、朱毅讲得真的好,干货蛮多,值得认真读很多遍,甚至可以当成多模态大模型基础课程学习。
论文原文: An image is worth 16x16 words: transformers for image recognition at scale。
ViT取代了CNN,打通了CV和NLP之间的鸿沟,而且挖了一个更大的多模态的坑。ViT未来有可能真就是一个简洁、高效、通用的视觉骨干网络,而且可以完全不用任何标注信息。当拥有足够多的数据进行预训练的时候,ViT的表现就会超过CNN,突破transformer缺少归纳偏置的限制,可以在下游任务中获得较好的迁移效果。
如果说过去一年中在计算机视觉领域哪个工作的影响力最大,那应该非vision transformer莫属了,因为他挑战了自从2012年Alex提出以来,CNN卷积神经网络在计算机视觉领域里绝对统治的地位。它的结论