Masked Multimodal Modeling (MMM) 模型解读

Quanato

已于 2023-12-09 23:46:10 修改

阅读量2k

收藏 27

点赞数 28

文章标签：深度学习人工智能机器学习算法

于 2023-12-09 23:45:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_73784868/article/details/134902236

版权

目录

一. 概述

二. 模型具体步骤和分析

1. 将图片和文本特征输入进MMM

2. Token化图像特征&映射图文token

3. 应用Mask标记（标记=token）

4. 预测被MASK化的Token&计算Loss

一. 概述

Masked multimodal modeling (MMM)是一种在多模态模型中使用的一种掩码（Mask）学习多模态表示的预训练目标。MMM的主要思想是在图像和文本上进行联合掩码，并预测被掩码的目标。

文章来源：FLAVA: A Foundational Language And Vision Alignment Model

https://arxiv.org/abs/2112.04482https://arxiv.org/abs/2112.04482

二. 模型具体步骤和分析

1. 将图片和文本特征输入进MMM

在FLAVA中，图片和文本各自经过Vit和Beit模型得到特征值，并且在各自的特征值上进行单模态训练：MIM & MLM。

2. Token化图像特征&映射图文token

借助一个预训练好的dVAE标记器，该标记器将每个图像块特征映射到视觉代码本中的一个索引，即通过查找与图像块特征最相似的视觉token，把图像特征映射到该视觉代码本中，得到类似文本的token特征（但是二者特征维度完全不同，即不在同一特征空间）。

在MMM中，图像和文本token的特征维度不同。因此MMM通过一个线性变换（一个全连接层）将图像和文本特征都映射到一个共享的特征空间。这个线性变换的参数是在训练过程中学习的，因此它可以自动地学习如何最好地将图像和文本的特征映射到共享的嵌入空间。

最终将两者和cls token串联成一个列表。

3. 应用Mask标记（标记=token）

替换一部分基于矩形块图像区域的图像块token和15%的文本token，用一个特殊的[MASK]标记。

4. 预测被MASK化的Token&计算Loss

将串联列表输入进一个单独的transformer中去融合图片和文本的隐藏状态。

多模态的输出是隐藏状态多模态编码器的输出是隐藏状态 {hM} 的列表，每个状态对应于 {hI } 或 {hT } 的单峰向量（以及 [CLS M] 的向量 hCLS，M）。

Quanato

关注

28
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Quanato CSDN认证博客专家 CSDN认证企业博客

码龄2年

暂无认证

24: 原创

121万+: 周排名

15万+: 总排名

2万+: 访问

: 等级

534: 积分

232: 粉丝

288: 获赞

12: 评论

336: 收藏

私信

关注

热门文章

分类专栏

手撸AI 专栏

最新评论

手撸AI-4: Accelerate库分布式训练详解
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
关于Couldn‘t find MySQL server (/usr/local/mysql/bin/mysqld_safe)
CSDN-Ada助手: 非常感谢您分享这篇博文，对于遇到类似问题的读者来说会非常有帮助。希望您能继续坚持创作，分享更多关于MySQL和其他技术方面的知识和经验。另外，除了更改执行权限，也可以通过检查文件所属用户和用户组、查看系统日志等方式来进一步排查和解决类似的问题。希望这些信息对您有所帮助，期待您未来的更多精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
VMLoc模型解读和原理分析
CSDN-Ada助手: 恭喜作者撰写了第20篇博客《VMLoc模型解读和原理分析》，对于深入研究和分享这一主题表示钦佩。希望作者能继续保持创作的热情，不断探索更多前沿的技术和理论，为读者带来更多有价值的内容。或许下一步可以考虑结合实际案例或者应用场景，将理论知识更贴近实际，让读者更易于理解和应用。期待作者的下一篇作品。
RINCE ------- 对比损失（InfoNCE）升级版
CSDN-Ada助手: 恭喜作者完成第17篇博客！标题也非常吸引人，对比损失（InfoNCE）升级版确实是个引人注目的主题。通过您的博客，我对RINCE有了更好的了解。您的解释非常清晰，让我容易理解了该算法的原理和应用。不过，如果可能的话，我希望您在下一篇博客中能够更深入地探讨该算法的优缺点以及与其他相关算法的对比。这样的比较将使读者更全面地了解该领域的最新进展。期待您未来更多的创作！
扩散模型（diffusion model）快速理解
CSDN-Ada助手: “恭喜你写了第16篇博客，对扩散模型的介绍非常清晰易懂。不过我觉得你可以尝试加入一些实际案例或者应用领域的探讨，这样可以让读者更加直观地理解扩散模型的应用。期待你的下一篇作品！”

大家在看

最新文章

2024年4篇

2023年19篇

2022年1篇

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值