ai培训师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-5

接上一篇

P9 P11

ViT中的Tranformer编码器

n Tranformer 编码器由 multi-head self-attention MSA )和 MLP 块的层组成。
n 在每个块之前应用 Layernorm LN ),在每个块之后应用残差连接。
n MLP 包含具有 GELU 非线性的两全连接层。

Vision TransformerViT 

n 模型变种: ViT 的配置基于 BERT 所使用的配置,如下表, BERT 采用了“ Base” 和“ Large” 模型,并添加了较大的“ Huge” 模型。

n 经过大数据集的预训练后,性能也超过了当前 CNN 的一些 SOTA 结果

经过大数据集的预训练后,性能也超过了当前 CNN 的一些 SOTA 结果如上

BEiT

n 实验证明 vision Transformer 需要远比 CNN 更多的数据来训练。为了解决需要大量数据来训练的这个问题,自监督式的预训练是一个很有前途的方式,它可以利用大规模的图像数据。
n BEiT 的形式很接近 BERT ,只不过用了一个 dVAE patch 进行离散化(就像 NLP token 也是离散化的)。
n dVAE 需要先在语料上训练出一个 encoder 和一个 decoder encoder 用来当作 tokenizer ,把图像离散化(对应每一个 patch ),然后给 Transformer 输入 patch ,预测离散后的图像,再用 decoder 还原。

未完,下一篇继续……  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值