ViT(Vision Transformer)网络原理

0 参考资料和术语

 NLP(National Language Processing)
 CV(Computer Vision)
 Transformer
 self-attention、cross-attention
 ViT(Vision Transformer)
 Embeddings
 DETR
 SETR
 SAM(Segment anything model)
 transfer learning

【什么是 ViT(Vision Transformer)?【知多少】】什么是 ViT(Vision Transformer)?【知多少】_哔哩哔哩_bilibili

1 由来

Transformer

Transformer 利用self-attention自注意力机制,

能够很好的提取自然语言文本中的特征,学着词语词之间的联系,捕捉文本特征,

从而很好的用于Nation Language Processing(NLP)

那么Transformer能够应用于Computer Vision(CV)

解决输入问题

Transformer输入是一维的文本序列,而图像像素点组成的二维阵列

处理方法

  1. 将二维阵列一个一个拆开

    1. 例如一个224*224的图像,降序为一维序列224*224=50176,相当于50176个字,太大了

  2. 将二维阵列分割为16*16或者其他尺寸的imgae embeddings,然后再分割开

    1. 分割为224/16,224/16 = 14个16*16的image embeddings然后降维为一维16*16=256个字大幅度减少

Vision Transformer(ViT)

一开始是用于图像分类的,后续广泛应用于CV,作为一个Image encoder 图像编码器,进行特征提取和降维,获得image embeddings特征向量,然后进行下游操作。

适合目标检测DETR和适合语义分割SETR,包括SAM网络模型中image encoder也是用的ViT的何大神预训练模型MAE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值