作者:
一作何凯明,陈鑫磊
文章整体框架:
1.引言:通过比较masked autoencoding在NLP上和CV上的应用的不同,引出文章改进的方法,使masked autoencoding在CV领域上应用,并使说明了模型的效果,重点是预训练的解码器在下游任务上的效果。
2.相关工作:带掩码自回归的语言模型,自编码器,带掩码的图像编码器的研究
3.模型架构
4.实验部分,包括微调和迁移学习
5.讨论与总结
MAE的网络架构:
网络分为编码器和解码器两部分,首先mask掉图片上一定比例的块,将保留的块投入编码器中,编码器提取未被mask掉的块的特征,提取出的特征和之前mask掉的块一起解码器中,最后复原出原本的图像。
训练过程:将图片投入网络中,随机mask一定比例,经过编码器解码器,将获得的图像与原始图像进行一个L1Loss,进行反向传播梯度更新。
这个MAE架构主要是为了训练出一个善于提取图像特征的编码器,用于迁移学习。