接上一篇
P7 P8
Vision Transformer(ViT)
思路上借鉴了CNN的局部特征抽取
n
ViT
将
CV
和
NLP
领域知识结合起来,对原始图片进行分块,展平成序列,输入进原始
Transformer
模型的编码器
Encoder
部分,最后接入一个全连接层对图片进行分类。
n
在大型数据集上表现超过了当时的
SOTA
模型。
n
ViT
尽可能地遵循原始的
transformer
。
Vision Transformer(ViT)
n
类似
BERT
的
[class] token
,在可嵌入的
Patch
序列
(
𝑍
0
0
Z_0^0
=
x
class
)
之前准备了可学习的
embedding
向量,该序列在
Transformer
编码器的输出
(
𝑍
𝐿
0
Z_L^0
)
的状态用作图像表示
y
。
n
在预训练和微调期间,都将分类
head
连接到
𝑍
𝐿
0
Z_L^0
。分类
head
是通过在预训练时具有一个隐藏层的
MLP
以及在微调时通过一个线性层的
MLP
来实现的。
n
位置
embedding
会添加到
patch embedding
中,以保留位置信息。对于
position
emb
采用
1-D embedding
,作者未发现用
2-D
位置
emb
会有显著性能提升。
未完,下一篇继续……