[METER]-跨模态论文阅读笔记

论文链接:https://arxiv.org/abs/2111.02387

代码链接:GitHub - zdou0830/METER: METER: A Multimodal End-to-end TransformER Framework

Vision-and-language预训练模型(VLP)总览

基本流程:

  1. 输入图片,通过Vision Encoder模块抽取图像特征
  2. 输入文本,通过Text Endocer模块抽取文本特征
  3. 输入图像、文本特征,通过Multimodal Fusion模块融合跨模态特征,得到cross-modal representations。
  4. cross-modal representations经过Decoder得到最终结果(可选),如右图所示,例如分类任务,信息输入encoder,然后feed分类token到decoder最终生成分类结果。

previous研究提取特征部分的不足

  1. Region Features:图像端采用object detectors抽取图像区域特征,作为图像端embedding,该方法存在的问题
    • 原始detectors并不完美,但是在VLP过程中经常是作为第一阶段抽取图像embedding,模型并不训练更新,从而限制了VLP模型的能力。
    • 抽取图像区域特征相当耗时。
  2. CNN-based Grid Features:尝试用端到端的形式解决1中的两个问题,采用CNN获取图像特征。该方法存在的问题
    • 文本端用transformer编码,图像端用CNN编码,但是两种方法的优化方法不一致,前者AdamW,后者为SGD。
    • 最近的工作证明采用vision transformers(ViT)编码会优于CNN编码,具有更高的准确性。

METER模型框架

模型架构探索:

  1. Vision Encoder:采用ViT架构,将图像分割成块,经由embedding层得到词向量feed入transformer模型。针对目前存在的不同ViT架构综合分析,以求得到最适合VLP的ViT结构,如original ViT、Swin Transformer、CLIP-ViT等。 
  2. Text Encoder:采用类BERT模型架构,将输入句子分词feed得到文本embedding。针对目前存在的BERT以及BERT的衍生模型综合分析,如BERT、RoBERTa、ELECTRA、ALBERT等。
  3. Multimodal Fusion:多模态融合方式有两种,co-attention和merged attention。co-attention-两种特征分别独立feed进不同transformer,采用cross-attn交互;merged attention-拼接两种特征feed进transformer。

预训练任务探索:

  1. Masked Language Modeling:对于image-caption pair,对输入的token随机mask,训练模型重构masked token。
  2. Image-Text Matching:提供matched or mismatched image-caption pairs,训练模型识别image和caption是否对应,二分类任务。
  3. Masked Image Modeling:与MLM相似,输入的图像特征为v = <v1,· · · , vn>,其中v1为region特征,随机对其进行mask,训练模型重建特征Ov复原,loss采用但是最近的sorta模型并不采用该训练任务,改进任务进行测试验证该任务是否有效。
    • 模仿MLM采用text vocabulary的形式,构建动态image patch bocabulary,构建的候选词表来源于batch image-caption pairs中images的patches。

Experiments:

  1. Impact of Text Encoders(without VLP),得出 RoBERTa模型效果最好,理由:性能鲁棒性最强。

  2. Impact of Vision Encoders(without VLP),得出CLIP-ViT-224/16 and Swin Transformer模型效果最好。

  3. Result with VLP

  4. Useful Trick
    1. 预训练模型参数初始化的模型小学习率较优,随机初始化参数的模型大学习率较优。

    2. 模型效果与图像的分辨率成正相关,越大效果越好

  5. experiment of Multimodal Fusion Modules

     
    • 融合策略上:co-attention model > the merged attention model
    • 解码端部分: encoder-only model >  encoder-decoder model(生成任务上则不一定)
       
  6. Impact of Pre-training Object,得出结论MLM+ITM预训练任务最优,MIM任务对预训练模型起反作用。

模型最终结果实验

最终结论:模型结构上Roberta+CLIP-ViT+Merged attention,预训练任务上MLM+ITM的VLP组合能达到目前的SOTA。(作者强调论文模型只用了4M的图像预训练数据)

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值