MAE(CV领域的Bert)

最新推荐文章于 2023-10-27 21:38:51 发布

东街流浪猫

最新推荐文章于 2023-10-27 21:38:51 发布

阅读量6.1k

点赞数

文章标签： bert 深度学习机器学习

本文链接：https://blog.csdn.net/weixin_45642184/article/details/123338923

版权

Masked Autoencoders Are Scalable Vision Learners

这篇文章是在2021年11月11号提交到arxiv上面的,Transformer是一个基于纯注意力机制的编码器与解码器。Bert是一个Transformer的编码器拓展到更一般的NLP任务，使用完形填空的自监督的训练机制，因此不需要使用标号，而是通过预测句子里不见masked的词。从而获取对文本这些特征进行抽取的能力，因而Bert扩展了Transformer的应用。VIT模型就是将Transformer应用到CV中。MAE相当于CV中的Bert,通过完形填空形式获得对于图片的理解。

上图就是MAE的框架图，首先将图像进行切块，切成一个一个的小块，灰色的地方就是被遮盖住的地方，将没有被盖住的块放入到encoder里面，也就是VIT中，得到每一块他对应的特征，然后拉长就是将被盖住的块重新放回原处，将原始图片拉成一个向量，没有盖住的就是填上VIT输出的特征，被盖住的地方就是灰色的方块，其实就是一个位置信息。然后输入到解码器中，解码器会尝试将里面的像素信息重构回来，使得输出完整的图片。主要的计算量来自于编码器。