Masked Autoencoders Are Scalable Vision Learners——有遮挡的自编码器是一个可拓展的视觉学习器

本文介绍了如何将maskedautoencoding从自然语言处理领域引入计算机视觉,通过改进模型结构,特别强调了预训练解码器在下游任务中的性能。研究者构建了一个包含编码器和解码器的网络,利用随机mask和L1Loss进行训练,目标是开发一个强大的图像特征提取器,适用于迁移学习任务。
摘要由CSDN通过智能技术生成

作者:

一作何凯明,陈鑫磊

文章整体框架:

1.引言:通过比较masked autoencoding在NLP上和CV上的应用的不同,引出文章改进的方法,使masked autoencoding在CV领域上应用,并使说明了模型的效果,重点是预训练的解码器在下游任务上的效果。

2.相关工作:带掩码自回归的语言模型,自编码器,带掩码的图像编码器的研究

3.模型架构

4.实验部分,包括微调和迁移学习

5.讨论与总结

MAE的网络架构:

        网络分为编码器和解码器两部分,首先mask掉图片上一定比例的块,将保留的块投入编码器中,编码器提取未被mask掉的块的特征,提取出的特征和之前mask掉的块一起解码器中,最后复原出原本的图像。

        训练过程:将图片投入网络中,随机mask一定比例,经过编码器解码器,将获得的图像与原始图像进行一个L1Loss,进行反向传播梯度更新。

        这个MAE架构主要是为了训练出一个善于提取图像特征的编码器,用于迁移学习。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值