【自监督】何凯明新作MAE略读

几维wk

已于 2022-01-26 16:31:16 修改

阅读量2.8k

点赞数 3

分类专栏：计算机视觉深度学习文章标签：计算机视觉人工智能深度学习

于 2021-11-16 10:07:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43728604/article/details/121349823

版权

深度学习同时被 2 个专栏收录

28 篇文章 2 订阅

订阅专栏

计算机视觉

21 篇文章 0 订阅

订阅专栏

要点1

本文定义了一个新的任务：随机掩码图像重建任务。即随机的掩盖图像中的某些部分，然后重建出图像。

要点2

本文提出了一个掩码自编码器，用来解决随机掩码图像重建任务。该编码器是一个不对称的编码-解码器结构，将没有被掩盖的部分传入编码器进行编码，然后经过一个比较轻量级的解码器进行解码，从而实现重建任务。
在这里插入图片描述

要点3

作者总结说现在深度学习的方法大多数依靠不断加深模型来提高性能。在作者的研究中，在ImageNet上利用一个类似于NLP的简单方法就学到了一个强大的自编码器，这具有很强大的扩展性，让计算机视觉可能走上与NLP类似的道路。

要点4

图像和语言是不同的信号，这一点值得关注。图像仅仅记录了光的信号而不像单词能够分解成不同的语义信息。同样地，MAE重建出的像素也不是语义实体，因为作者是随机抽取的块而不是把目标抽取出来，所以与语义分割任务不同。

要点5

不同mask数量的结果展示
在这里插入图片描述

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
4
评论
【自监督】何凯明新作MAE略读

要点1本文定义了一个新的任务：随机掩码图像重建任务。即随机的掩盖图像中的某些部分，然后重建出图像。要点2本文提出了一个掩码自编码器，用来解决随机掩码图像重建任务。该编码器是一个不对称的编码-解码器结构，将没有被掩盖的部分传入编码器进行编码，然后经过一个比较轻量级的解码器进行解码，从而实现重建任务。要点3作者总结说现在深度学习的方法大多数依靠不断加深模型来提高性能。在作者的研究中，在ImageNet上利用一个类似于NLP的简单方法就学到了一个强大的自编码器，这具有很强大的扩展性，让计算机视觉可能走
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。