读论文——MAE（CV小白带读2021何恺明新作）

本文链接：https://blog.csdn.net/y1040468929/article/details/121702426

本文详细解析了何恺明等人2021年的论文《Masked Autoencoders Are Scalable Vision Learners》，介绍了MAE如何通过随机掩盖图像块并重建来实现自监督学习。这种方法在大规模模型的训练中表现出高效性和准确性，适用于图像识别、目标检测等任务。论文指出，简单算法在深度学习中的重要性，以及在CV中自监督学习的潜力，为打通CV和NLP之间的障碍提供了新思路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一遍

标题

Masked Autoencoders Are Scalable Vision Learners （带掩码的自动编码器是可拓展的视觉学习器）

论文地址： https://arxiv.org/abs/2111.06377

作者

Kaiming He ，Xinlei Chen （Facebook AI Research, FAIR）

摘要

MAE是可拓展自监督视觉学习器
思想：随机掩盖一些图像块，然后重建丢失的像素
方法：
1. 使用一个非对称的解码编码器对可见的图形块进行处理，同时使用一个轻量级的解码器从潜在表示和掩码块重建原始图像；
2. 如果遮挡输入图像的大部分（例如75%），就是变成了一个自监督任务。
这两种方法可以有效地训练大规模模型：可以加速训练和提高精度。
本文的方法可用于ViT下游识别任务的fine-tune，还可以用于目标检测、实例分割以及语义分割等任务的迁移学习。

结论

简单的算法能够很好地伸缩，是深度学习的核心，符合目前深度学习的趋势，从residual block、attention block、transformer block等，大家开始使用一些相对简单、固定的结构，一方面它们有不错的性能表现，另一方面它们也不需要调很多超参数，便于训练。
本文提出在CV中自监督学习也是具有很大意义的，可以提高模型的拓展性，而且也和NLP走上了同样道路，某种程度上来说打通了CV和NLP之间的屏障。
图像和语言是两种不同的信号，图像仅仅是记录下来的光，没有把语义分解成文字的视觉模拟。因此，我们没有尝试移除对象，而是移除了随机的块（这些块最没有可能形成一个语义块）。我们的MAE重建像素而不是语义实体，但是实验过程中发现，MAE也推断出了复杂的整体的结构，表明它学习了很多视觉概念甚至语义，这一点还有待于后继者继续挖掘。
更广法的影响，由于所提出的方法是基于训练数据集的学习统计数据预测内容，那么就会反应训练集中的偏差。因此模型可能会产生一些不存在的内容，这一点还有待进一步的研究。