Vision Transformer 总结

Gamma and Beta

已于 2024-04-26 15:56:45 修改

阅读量473

点赞数 5

分类专栏：读博笔记算法笔记文章标签： transformer 深度学习人工智能

于 2024-04-24 17:30:33 首次发布

本文链接：https://blog.csdn.net/weixin_52668444/article/details/138163615

版权

算法笔记同时被 2 个专栏收录

28 篇文章 8 订阅

订阅专栏

读博笔记

14 篇文章 0 订阅

订阅专栏

这里写自定义目录标题

Vision Transformer
Transformer in Transformer
代码实现的一些描述

Vision Transformer

Transformer

结构

ViT中最重要的部分是self-attention, 对照片做的patches, 以及position embedding。self-attention机制在之前的博客里面也有讲过，在这里主要是计算每一个patch 之间的相关性，多头的自注意力机制有些许不一样的。我个人的理解是单头的注意力机制只能计算某一个特征和另外一个特征的相关性，但是多头注意力机制可以同时处理多个特征的和另外多个特征的相关性。我感觉这里可以结合“线性分类器” 和 "CNN"的区别来理解。线性分类器只能学习到输入数据的一个mode,比如 “一个人的看向左边”，但是如果输入数据中还有：‘一个人看向右边’的图片，线性分类器就无法准确的学习，但是CNN却因为很多的kernels，所以可以学习到一个物体的不同mode。这里的self-attention 和multi-head self-attention 可以采用的同样的方式来理解。

至于patch，我认为是将图片序列化的一个过程而已，因为Transformer本身是无法处理图片格式的数据的。所以将图片打散成小的patch更符合Transformer的输入条件。但是图像数据本身携带了位置信息的，通过这样的“序列化”过程会导致图像丢失之前的位置信息，所以position embedding 在ViT中才如此的重要。所谓position embedding 实际上是加在每一个patch上的一个小向量来表示当前patch的位置信息。

相较于CNN 的优势在哪里？

想要获得全局的信息CNN 通常需要通过堆叠深度来实现感受野的增长。因为对于CNN 来说第N层的特征图上的一个像素点，是第N-1层的一片区域。随着层数的变多，网络的感受野也会逐渐变大，但是通常是需要较深的深度才能达到这个效果，较深深度不仅会出现计算力吃紧的问题，也是潜在出现过拟合的原因，而transformer 因为每一层都会整合patch之间的信息，他可以从第一层开始就看到全局信息，在一定程度上规避了CNN 需要非常深的深度才能获得较好全局信息的问题。