Masked Multimodal Modeling (MMM) 模型解读

目录

一. 概述

二. 模型具体步骤和分析

1. 将图片和文本特征输入进MMM

2. Token化图像特征&映射图文token

3. 应用Mask标记(标记=token)

4. 预测被MASK化的Token&计算Loss


一. 概述

        Masked multimodal modeling (MMM)是一种在多模态模型中使用的一种掩码(Mask)学习多模态表示的预训练目标。MMM的主要思想是在图像和文本上进行联合掩码,并预测被掩码的目标。

文章来源:FLAVA: A Foundational Language And Vision Alignment Model

https://arxiv.org/abs/2112.04482icon-default.png?t=N7T8https://arxiv.org/abs/2112.04482

二. 模型具体步骤和分析

1. 将图片和文本特征输入进MMM

        在FLAVA中,图片和文本各自经过Vit和Beit模型得到特征值,并且在各自的特征值上进行单模态训练:MIM & MLM。

2. Token化图像特征&映射图文token

        借助一个预训练好的dVAE标记器,该标记器将每个图像块特征映射到视觉代码本中的一个索引,即通过查找与图像块特征最相似的视觉token,把图像特征映射到该视觉代码本中,得到类似文本的token特征(但是二者特征维度完全不同,即不在同一特征空间)。

        在MMM中,图像和文本token的特征维度不同。因此MMM通过一个线性变换(一个全连接层)将图像和文本特征都映射到一个共享的特征空间。这个线性变换的参数是在训练过程中学习的,因此它可以自动地学习如何最好地将图像和文本的特征映射到共享的嵌入空间。

        最终将两者和cls token串联成一个列表。

        

3. 应用Mask标记(标记=token)

        替换一部分基于矩形块图像区域的图像块token和15%的文本token,用一个特殊的[MASK]标记。

4. 预测被MASK化的Token&计算Loss

        将串联列表输入进一个单独的transformer中去融合图片和文本的隐藏状态。

        多模态的输出是隐藏状态多模态编码器的输出是隐藏状态 {hM} 的列表,每个状态对应于 {hI } 或 {hT } 的单峰向量(以及 [CLS M] 的向量 hCLS,M)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值