【自监督学习】MAE论文解读《 Masked Autoencoders Are Scalable Vision Learners 》

提出可扩展的自监督学习方法。

MAE有两个核心设计,一是采用一种非对称的编码器-解码器架构,编码器仅对可见的图像区域进行操作,轻量级的解码器从潜在表示和遮罩标记区域重构原始图像。二是发现高比例的图像遮罩可以产生一个有意义且非平凡的自监督任务。

MAE(遮罩自编码器)的思想是一种更通用的去噪自编码器。

INTRODCUTION

MAE对输入图像进行随即补丁的遮罩,并在像素空间中重构缺失的补丁。具有非对称的encoder-decoder结构。编码器仅对可见的补丁进行操作,编码器轻量级并从隐藏表示中以及遮罩标记中重构输入。通过将遮罩标记移到非对称编码器-解码器的小解码器上,可以大幅减少计算量。在这种设计下,高遮罩率可以实现双赢的情况:在优化准确率的同时,使编码器仅处理一小部分的补丁,可以将整体预训练时间缩短3倍及以上,同时减少内存消耗,时MAE可以轻松扩展到大型模型上。

自编码器(AE)是一种经典的学习表示方法,包括一个编码器,将输入映射到潜在表示,以及一个解码器,用于重构输入。

MEATH

MAE通过编码器将观测信号映射到潜在表示,解码器从潜在表示中重构出原始信号。该编码器采用不对称设计,使编码器仅处理部分观测信号,而轻量级解码器则从潜在表示和屏蔽标记中重构完整信号

屏蔽:随机采样选择补丁,高屏蔽比例的随机采样大大消除冗余,从而创建一个不容易通过可见邻近补丁的外推来解决的任务。高度稀疏的输入为设计高效的编码器提供了机会

编码器:编码器是一个VIT,但仅用于可见的、未屏蔽的补丁。编码器通过线性投影和位置嵌入讲不定嵌入到潜在表示中,然后通过一系列Transformer块对结果进行处理。

解码器:解码器的输入是由编码器的可见补丁和屏蔽标记组成的完整标记集合。每个屏蔽标记是一个共享的、学习到的向量,指示待预测的缺失补丁的存在。在完整标记集合中为所有标记添加位置嵌入。解码器也包含了一系列transformer块

重构目标:通过预测每个掩蔽补丁的像素值来重构输入。解码器的输出中的每个元素是表示一个补丁的像素值向量。解码器的最后一层是一个线性投影,其输出通道数等于一个补丁中的像素值数量。解码器的输出被重塑为重构图像

重构变体:计算patch中所有像素的均值和标准差,并将其用于对该patch进行归一化。在实验中,使用归一化像素作为重构目标可以提高表示质量

实现方法 :

  1. 首先,对于每个输入的patch,通过线性投影和添加位置嵌入,生成一个对应的token。这个标记可以看作是对patch的向量表示
  2. 对生成的token列表进行随机打乱,并根据设定的屏蔽比例,一处列表中的一部分。这样就产生了编码器的一个小子集,相当于从patch中无重复地进行采样
  3. 在编码完成后,将一系列屏蔽标记追加到编码补丁列表之后,通过一项操作将这个完整的列表进行还原,即恢复原始的随机打乱顺序,以使所有标记与它们的目标对齐
  4. 最后,将解码器应用于这个完整的列表,其中还添加了位置嵌入。解码器的作用使根据标记列表生成和原始补丁对应的重构结果。
Experiments

模型判断缺失patch以产生不同但合理的输出。它理解对象和场景的整体性,不能简单地通过延伸线条或纹理来完成

线性探测和微调的结果呈现不同的趋势。对于线性探测,准确率随着遮挡比例的增加而稳步提高,直到达到最佳点:准确率差距高达约20%(54.6% vs. 73.5%)。对于微调,结果对比例的敏感性较低,遮挡比例在40%到80%的范围内都能取得良好的效果。图5中的所有微调结果都优于从头开始训练(82.5%)

解码器深度(transformer块的数量)自动编码器的最后几层更专注于重建。一个合理深的解码器可以考虑到重建的特殊性,使潜在表示再更抽象的层面上。这种设计可以在线性探测中提高8%的准确率(lin),如果使用微调,则编码器的最后几层可以调整以适应识别任务。对于改进微调来说,解码器的深度影响较小(ft)

当解码器的块数为8时效果最好,而更深的块数为12时效果变差,可能是由于以下原因之一:

  1. 过拟合:较深的解码器可能会增加模型的复杂性,导致在训练数据上过拟合。过拟合会导致模型在未见过的测试数据上性能下降。因此,当块数增加到12时,模型可能过度拟合了训练数据,导致性能下降。
  2. 缺乏训练数据:更深的解码器可能需要更多的训练数据来学习适当的表示和模式。如果训练数据的数量有限,增加解码器的深度可能会导致模型无法充分学习数据的特征,从而降低性能。
  3. 梯度消失或爆炸:随着解码器块数增加,梯度的传播路径变得更长。这可能导致梯度消失(变得非常小)或梯度爆炸(变得非常大),从而使训练过程更加困难。这可能会导致模型在更深的解码器情况下难以收敛,导致性能下降。
  4. 特定任务的复杂性:更深的解码器并不总是适用于所有任务。某些任务可能对更浅的解码器更敏感,因为它们的特征和模式相对简单。更深的解码器可能会引入过多的复杂性,对这些相对简单的任务并不具有优势。

解码器宽度(通道数)在默认情况下,使用512维,对于微调x和线性探测都表现良好。较窄的解码器在微调中也能很高的工作

总体来说,MAE解码器是非常轻量的,由8个块512维的宽度。因此,尽管解码器处理所有令牌,但它仍只占整体计算量的一小部分

掩码token,如果编码器使用token性能会下降。线性探测的准确率会下降14%

比较不同重建目标。图表显示,未使用归一化的像素作为重建目标时,准确性较低。当使用归一化的像素作为重建目标时、,准确性有所提高。这种归一化可以增强局部对比度,改善模型性能

其次,本文尝试在补丁空间执行主成分分析(PCA),并将最大的PCA系数作为重建目标。但是这种方法导致准确性下降,表明高频组件在该方法中是有用的

最后比较了一种基于平均绝对误差(MAE)的变体,该变体预测标记,这是BEiT方法中使用的目标。为实现这个变体,使用一个名为dVAE的预训练模型作为分词器。然而,与未归一化的像素相比,这种标记化方法只在微调准确性上提高了0.4%,对归一化的像素没有优势,而且降低了线性探测准确性。在迁移学习中,标记化并不是必须的

数据增强对预训练的影响。表明即使不使用数据增强MAE表现仍然不错。在MAE中,数据增强的作用主要由随机遮罩来执行。这些遮罩在每次迭代中都不同,因此他们会生成新的训练样本,而不受数据增强的影响。遮罩使得预训练任务变得困难,并且需要较少的增强来规范化训练过程

遮罩策略:简单的随机采样效果最好。它允许更高的遮罩比例,可以提供更大的加速优势,并且同时保持较好的准确性

训练计划。到目前为止,我们的消融实验都是基于800个epoch的预训练。图7展示了训练计划长度的影响。随着训练时间的延长,准确性逐渐提高。事实上,即使在1600个epoch时,我们也没有观察到线性探测准确性的饱和状态。

与有监督的预训练的比较。在原始的ViT论文[16]中,ViT-L在IN1K数据集上的训练性能下降。我们的有监督训练实现(见A.2)效果更好,但准确性达到了饱和。请参见图8。

我们的MAE预训练仅使用IN1K数据,可以更好地泛化:对于更高容量的模型,与从头开始训练相比,我们获得的收益更大。这与[16]中的JFT-300M有监督预训练呈现类似的趋势。这个比较表明,我们的MAE可以帮助扩大模型的规模。

图9展示了结果。值得注意的是,仅微调一个Transformer块将准确率从73.5%显著提升到81.0%。此外,如果我们仅微调最后一个块的“一半”(即它的MLP子块),我们可以获得79.1%的准确率,比线性探测要好得多。这个变体本质上是微调一个MLP头部。微调几个块(例如4个或6个)可以获得接近完全微调的准确率。

在图9中,我们还与MoCo v3进行了比较,这是一种具有ViT-L结果的对比方法。MoCo v3具有更高的线性探测准确率;然而,它的部分微调结果都不如MAE。当微调4个块时,差距为2.6%。虽然MAE表示不太线性可分,但它们是更强的非线性特征,在微调非线性头部时表现良好。

这些观察结果表明,线性可分性不是评估表示质量的唯一指标。已经观察到,线性探测与迁移学习性能(例如目标检测)的相关性不高。据我们所知,在自然语言处理中,线性评估并不经常用于基准测试预训练模型。

使用上表中的预训练模型评估下游任务中的迁移学习

目标检测和分割。我们在COCO数据集上对Mask R-CNN进行端到端的微调。ViT骨干网络与FPN [36]进行了适配。我们对表4中的所有条目都采用了这种方法。我们报告目标检测的框AP和实例分割的掩膜AP。与有监督预训练相比,在所有配置下,我们的MAE表现更好。对于较小的ViT-B,我们的MAE比有监督预训练高出2.4个点(50.3 vs. 47.9,APbox)。更重要的是,对于较大的ViT-L,我们的MAE预训练比有监督预训练高出4.0个点(53.3 vs. 49.3)

语义分割。我们在ADE20K数据集上使用UperNet进行实验(详见A.4)。表5显示,我们的预训练相比有监督预训练显著提高了结果,例如,对于ViT-L,提高了3.7个点。我们基于像素的MAE也优于基于令牌的BEiT。这些观察结果与COCO数据集中的观察结果一致。

分类任务。表6研究了在iNaturalists和Places任务上的迁移学习(详见A.5)。在iNat上,我们的方法显示出很强的扩展性:随着模型大小的增加,准确率显著提高。我们的结果大幅超过了先前的最佳结果。在Places上,我们的MAE优于先前的最佳结果,这些结果是通过对数十亿张图像进行预训练获得的。

像素 vs. token。表7比较了像素和token作为MAE重构目标的效果。虽然使用dVAE令牌比使用非归一化像素更好,但在我们测试的所有情况下,与使用归一化像素相比,它在统计上是相似的。这再次表明,对于我们的MAE,token并不是必要的。

  • 25
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值