MAE(CV领域的Bert)

Masked Autoencoders Are Scalable Vision Learners

这篇文章是在2021年11月11号提交到arxiv上面的,Transformer是一个基于纯注意力机制的编码器与解码器。Bert是一个Transformer的编码器拓展到更一般的NLP任务,使用完形填空的自监督的训练机制,因此不需要使用标号,而是通过预测句子里不见masked的词。从而获取对文本这些特征进行抽取的能力,因而Bert扩展了Transformer的应用。VIT模型就是将Transformer应用到CV中。MAE相当于CV中的Bert,通过完形填空形式获得对于图片的理解。

上图就是MAE的框架图, 首先将图像进行切块,切成一个一个的小块,灰色的地方就是被遮盖住的地方,将没有被盖住的块放入到encoder里面,也就是VIT中,得到每一块他对应的特征,然后拉长就是将被盖住的块重新放回原处,将原始图片拉成一个向量,没有盖住的就是填上VIT输出的特征,被盖住的地方就是灰色的方块,其实就是一个位置信息。然后输入到解码器中,解码器会尝试将里面的像素信息重构回来,使得输出完整的图片。主要的计算量来自于编码器。

 

上图是在ImageNet验证集上面通过MAE构建出来的图像,左边演示就是将图像的80%去掉,中间一列就是通过MAE预测出来的结果,右边一列就是原始的ImageNet图像。

上图是遮盖的不同比例还原出来的不同图像。有被遮盖75%,85%,95%。

MAE是一个简单的自编码器,看到部分观察的数据来来重构完整的原始信号。将观察到的信号映射到潜表示里面,然后通过潜表示经解码器重构原始信息。为减少计算编码器只能见到没有被遮挡住的块,解码器需要看到所有的块。损失函数使用的是MSE,只在被盖住的地方使用MSE,没有被盖住的地方就不用进行损失函数了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值