第一遍
标题
Masked Autoencoders Are Scalable Vision Learners (带掩码的自动编码器是可拓展的视觉学习器)
论文地址: https://arxiv.org/abs/2111.06377
作者
Kaiming He ,Xinlei Chen (Facebook AI Research, FAIR)
摘要
- MAE是可拓展自监督视觉学习器
- 思想:随机掩盖一些图像块,然后重建丢失的像素
- 方法:
- 使用一个非对称的解码编码器对可见的图形块进行处理,同时使用一个轻量级的解码器从潜在表示和掩码块重建原始图像;
- 如果遮挡输入图像的大部分(例如75%),就是变成了一个自监督任务。
- 这两种方法可以有效地训练大规模模型:可以加速训练和提高精度。
- 本文的方法可用于ViT下游识别任务的fine-tune,还可以用于目标检测、实例分割以及语义分割等任务的迁移学习。
结论
- 简单的算法能够很好地伸缩,是深度学习的核心,符合目前深度学习的趋势,从residual block、attention block、transformer block等,大家开始使用一些相对简单、固定的结构,一方面它们有不错的性能表现,另一方面它们也不需要调很多超参数,便于训练。
- 本文提出在CV中自监督学习也是具有很大意义的,可以提高模型的拓展性,而且也和NLP走上了同样道路,某种程度上来说打通了CV和NLP之间的屏障。
- 图像和语言是两种不同的信号,图像仅仅是记录下来的光,没有把语义分解成文字的视觉模拟。因此,我们没有尝试移除对象,而是移除了随机的块(这些块最没有可能形成一个语义块)。我们的MAE重建像素而不是语义实体,但是实验过程中发现,MAE也推断出了复杂的整体的结构,表明它学习了很多视觉概念甚至语义,这一点还有待于后继者继续挖掘。
- 更广法的影响,由于所提出的方法是基于训练数据集的学习统计数据预测内容,那么就会反应