ai人工智能培训讲师计算机视觉讲师叶梓：计算机视觉领域的自监督学习模型——MAE-8

最新推荐文章于 2023-03-25 16:42:58 发布

人工智能大模型讲师培训咨询叶梓

最新推荐文章于 2023-03-25 16:42:58 发布

阅读量167

点赞数

分类专栏：人工智能讲师文章标签：计算机视觉人工智能 MAE讲师 AI讲师人工智能讲师

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44292902/article/details/124662732

版权

人工智能讲师专栏收录该内容

74 篇文章 3 订阅

订阅专栏

接上一篇

P17-P18

BEiT

n 让 BEIT 看很多的图片，随机遮住一些 patches ，让 BEIT 模型预测遮住的 patches 是什么

n 不断计算预测的 patches 与真实的 patches 之间的差异，利用它作为 loss 进行反向传播更新参数，来达到 Self-Supervised Learning 的效果。

视觉和语言用的masked autoencoder区别

n 架构差异： CNN 天然适合图像领域，而应用 Transformer 却显得不那么自然，不过这个问题已经被 ViT 解决了。

n 信息密度差异：人类的语言信息密集、博大精深，而图像不一样，它就那么多信息。所以预测的时候，预测 patch 要比预测词语容易很多，只需要对周边的 patch 稍微有些信息就够了。所以我们可以放心大胆地 mask 。

n 自编码器的解码器（将潜在表征映射回输入）在文本和图像重建任务中起着不同的作用。在 CV 任务中，解码器重建的是像素，因此其输出的语义水平低于一般的识别任务。

未完，下一篇继续……

人工智能大模型讲师培训咨询叶梓

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
ai人工智能培训讲师计算机视觉讲师叶梓：计算机视觉领域的自监督学习模型——MAE-8

接上一篇P17-P18BEiTn让 BEIT 看很多的图片，随机遮住一些 patches，让 BEIT 模型预测遮住的patches是什么n不断计算预测的 patches 与真实的 patches 之间的差异，利用它作为 loss 进行反向传播更新参数，来达到 Self-Supervised Learning 的效果。视觉和语言用的masked autoencoder区别n架构差异：CNN天然适合图像领域，而应用Transformer却显得不那么自然，不过这个问题已经被.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。