读论文——MAE(CV小白带读2021何恺明新作)

本文详细解析了何恺明等人2021年的论文《Masked Autoencoders Are Scalable Vision Learners》,介绍了MAE如何通过随机掩盖图像块并重建来实现自监督学习。这种方法在大规模模型的训练中表现出高效性和准确性,适用于图像识别、目标检测等任务。论文指出,简单算法在深度学习中的重要性,以及在CV中自监督学习的潜力,为打通CV和NLP之间的障碍提供了新思路。
摘要由CSDN通过智能技术生成

第一遍

标题

Masked Autoencoders Are Scalable Vision Learners (带掩码的自动编码器是可拓展的视觉学习器)

论文地址: https://arxiv.org/abs/2111.06377

作者

Kaiming He ,Xinlei Chen (Facebook AI Research, FAIR)

摘要

  • MAE是可拓展自监督视觉学习器
  • 思想:随机掩盖一些图像块,然后重建丢失的像素
  • 方法:
    1. 使用一个非对称的解码编码器对可见的图形块进行处理,同时使用一个轻量级的解码器从潜在表示和掩码块重建原始图像;
    2. 如果遮挡输入图像的大部分(例如75%),就是变成了一个自监督任务。
  • 这两种方法可以有效地训练大规模模型:可以加速训练和提高精度。
  • 本文的方法可用于ViT下游识别任务的fine-tune,还可以用于目标检测、实例分割以及语义分割等任务的迁移学习。

结论

  1. 简单的算法能够很好地伸缩,是深度学习的核心,符合目前深度学习的趋势,从residual block、attention block、transformer block等,大家开始使用一些相对简单、固定的结构,一方面它们有不错的性能表现,另一方面它们也不需要调很多超参数,便于训练。
  2. 本文提出在CV中自监督学习也是具有很大意义的,可以提高模型的拓展性,而且也和NLP走上了同样道路,某种程度上来说打通了CV和NLP之间的屏障。
  3. 图像和语言是两种不同的信号,图像仅仅是记录下来的光,没有把语义分解成文字的视觉模拟。因此,我们没有尝试移除对象,而是移除了随机的块(这些块最没有可能形成一个语义块)。我们的MAE重建像素而不是语义实体,但是实验过程中发现,MAE也推断出了复杂的整体的结构,表明它学习了很多视觉概念甚至语义,这一点还有待于后继者继续挖掘。
  4. 更广法的影响,由于所提出的方法是基于训练数据集的学习统计数据预测内容,那么就会反应
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值