0 参考资料和术语
NLP(National Language Processing) CV(Computer Vision) Transformer self-attention、cross-attention ViT(Vision Transformer) Embeddings DETR SETR SAM(Segment anything model) transfer learning
【什么是 ViT(Vision Transformer)?【知多少】】什么是 ViT(Vision Transformer)?【知多少】_哔哩哔哩_bilibili
1 由来
Transformer
Transformer 利用self-attention
自注意力机制,
能够很好的提取自然语言文本中的特征,学着词语词之间的联系,捕捉文本特征,
从而很好的用于Nation Language Processing(NLP)
中
那么Transformer能够应用于Computer Vision(CV)
?
解决输入问题
Transformer输入是一维的文本序列,而图像像素点组成的二维阵列
处理方法
-
将二维阵列一个一个拆开
-
例如一个224*224的图像,降序为一维序列224*224=50176,相当于50176个字,太大了
-
-
将二维阵列分割为16*16或者其他尺寸的imgae embeddings,然后再分割开
-
分割为224/16,224/16 = 14个16*16的image embeddings然后降维为一维16*16=256个字大幅度减少
-
Vision Transformer(ViT)
一开始是用于图像分类的,后续广泛应用于CV,作为一个Image encoder 图像编码器,进行特征提取和降维,获得image embeddings特征向量,然后进行下游操作。
适合目标检测
的DETR
和适合语义分割
的SETR
,包括SAM
网络模型中image encoder
也是用的ViT
的何大神预训练模型MAE