Exchanging-based Multimodal Fusion with Transformer

1. BaseInfo

TitleExchanging-based Multimodal Fusion with Transformer
Adresshttps://arxiv.org/abs/2309.02190
Journal/Time202309 (居然还在投稿中
Author网易伏羲实验室 / 华东师范 / 美团 / 新加坡国立
Codehttps://github.com/RecklessRonan/MuSE
Read20240806
Table#VisonLanguage

2. Creative Q->A

  1. 视觉-视觉融合 -> 文本-视觉融合
  2. 融合的有效性 -> CrossTransformer,使用两个共享参数的 Transformer 编码器作为 Backbone 模型来交换多模态的知识

3. Concrete

3.1. Model

Multimodal fuSion method based on Exchanging(MuSE)
j结构图

首先使用两个独立的编码器将多模态特征映射到低维空间上,然后应用两个解码器来归一化 embedding 并将其推入到相同的空间。基于这些 embedding,提出 CrossTransformer,使用两个共享参数的 Transformer 编码器作为 Backbone 模型来交换多模态的知识。

文本和图像:文本是 3 维序列,图像 4D 平面。

part1. 将输入的文本和图像投影到低维度空间,其包含一个文本编码器和图像编码器。
part2/3. 考虑到多模态数据可能会被映射到不同的空间上,于是提出两个 embedding 归一化 (两个解码器)
part4. 将多模态输入的 embedding 推到同一空间上,分别执行文本-图像生成任务和图像字幕任务。在多模态输入的 embedding 生成后,将其输出到 4 由一个基于 Transformer 的模块组成,称之为 CrossTransformer。CrossTransformer 执行多模态信息交换,最终聚合融合后的 embedding。

loss的ti和it画图画反了,组件2是从输入文本生成了图像,最后的loss是原始图像跟生成图像作为loss的参数进行损失的计算,应该是loss_ti,也就是文本到图像loss
同理组件3图像作为输入最终是获得了生成文本,最后通过生成文本和输入文本作为参数计算损失应该是计算的图像的图像字幕任务的损失

3.1.1. Input

图片+文本

3.1.2. Backbone

ResNet + BERT

3.1.3. Neck

3.1.4. Decoder

PixelCNN++
NIC-Att

3.1.5. Loss

Loss

3.2. Training

NameValue
batch size40
Learning rate1e-4, 5e-5, 1e-5
ImageEncoderthe input image is resized to [224, 224] and the encoded image size is set to [8, 8]
TextEncoder64
ImageDecoderthe input image is resized to [32, 32]
CrossTransformer dropout rate[0.1, 0.2, 0.3, 0.4]

3.2.1. Resource

V100 * 6

3.2.2 Dataset

Dataset

3.3. Eval

Multimodal Named Entity Recognition 多模态命名实体识别任务
Multimodal Sentiment Analysis 多模态情感分析任务
eval

3.4. Ablation

  1. MuSE-only-T
  2. MuSE-only-I
  3. MuSE-w/o-CT : remove CrossTransformer
  4. MuSE-only-Ltask : only optimizes the task loss
  5. MuSE-w/o-Lit : removes the image captioning loss
  6. MuSE-w/o-Lti : removes the text-to-image generation loss.
  7. Hyper-parameter Sensitivity
    消融实验

4. Reference

VL系列 Exchanging-based Multimodal Fusion with Transformer 论文阅读笔记
[1] SALIMANS T, KARPATHY A, CHEN X, et al. PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications[J]. International Conference on Learning Representations,International Conference on Learning Representations, 2017.
[1] XU K, BA J, KIROS R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[J]. International Conference on Machine Learning,International Conference on Machine Learning, 2015.

5. Additional

附录里写了 MNER 和 MSA 任务。

6. Clutter

这个想法不错,尝试了一下代码,发现这个 CrossTransformer 的局限性有点大,语言和文本的 token 长度必须保持一致 。 可能会对视觉信息做很多阉割,一般的特征图 token [2048, 1024, 512, 256],代码中的 token 数是 64 。
虽然代码比较少但是代码写的有点乱,几乎没有注释。

  • 23
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值