【论文阅读】Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA

motivation

任务

解决TextVQA任务,需要阅读和理解图像中的文本来回答一个问题。
(As a prominent task for visual reasoning)

现有方法的不足

现有的TextVQA方法大多基于两种模式之间的自定义成对融合机制,并通过将TextVQA转换为一个分类任务而被限制为一个单一的预测步骤

创新点

  1. 在这项工作中,我们提出了一个新的模型的TextVQA任务基于多模态转换架构伴随着一个丰富的文本图像表示
  2. 我们的模型通过将不同的模式嵌入到一个共同的语义空间来自然地均匀融合,在这个空间中,自我注意应用于建模模式间和模式内上下文。
  3. 此外,它还支持使用动态指针网络的迭代答案解码,允许模型通过多步预测而不是一步分类来形成答案。

我们的模型在TextVQA任务的三个基准数据集上大大优于现有的方法。
在这里插入图片描述

contribution

  1. 我们表明,多个(超过两个)输入模态可以通过我们的多模态变压器架构进行自然地融合和联合建模。
  2. 与之前在TextVQA上的工作不同,我们的模型推理了一个分类步骤之外的答案,并通过我们的点间增强多步骤解码器来预测它。
  3. 我们对图像中的文本标记采用了丰富的特征表示,并表明了它优于以往工作中仅基于单词嵌入的特征。
  4. 我们的模型在TextVQA任务的三个具有挑战性的数据集上的工作:TextVQA[44](+相对25%)、ST-VQA[8](+相对65%)和OCR-VQA[37](相对+32%)。

method

overview

在这里插入图片描述
我们通过特定于领域的嵌入方法,将所有实体(问题词、检测到的视觉对象和检测到的OCR标记) 投射到一个公共的d维语义空间中,并在投影的事物列表上应用多个转换器层。基于变压器输出,我们通过迭代自回归解码来预测答案,在每一步,我们的模型要么通过动态指针网络选择一个OCR令牌或者从其固定答案词汇表选择一个单词

A common embedding space for all modalities

Embedding of question words

给定一个问题作为K个单词序列,我们将这些单词嵌入预先训练的d维特征向量。在训练期间,使用回答问题的损失对BERT参数进行微调。

Embedding of detected objects

给定一个图像,我们通过一个预先训练好的Faster R-CNN获得一组M个视觉对象。
在这里插入图片描述
w1和w2是学习到的投影矩阵。LN是层归一化。xfr 是appearance feature,xb是location feature。

Embedding of OCR tokens with rich representations

在这里插入图片描述

  1. 300维 FastText向量xft,这是一个单词嵌入子字信息
  2. 一个外观特征xfr从相同的Faster R-CNN探测器目标检测,通过roi池提取OCR令牌的边界框
  3. 604维金字塔直方图字符(PHOC)xp,捕捉字符——这是更健壮的OCR错误,可以被视为一个粗字符模型
  4. 一个四维位置特征xb基于OCR令牌的相对边界框坐标[xmin/Wim,ymin/Him,xmax/Wim,ymax/Him]

Multimodal fusion

将每个模态中的所有实体(问题单词、视觉对象和OCR标记)作为向量嵌入到d维关节嵌入空间中,我们在所有K+M+N实体的列表上应用一个L变压器层[48]的堆栈。
通过变压器中的多头自我注意机制,每个实体都可以自由地关注所有其他实体。
这使得通过同一组变压器参数以均匀的方式建模模态间和模态内关系 。从我们的多模态变压器的输出是每个模态中实体的d维特征向量的列表,这可以看作是它们在多模态上下文中的丰富嵌入

iterative answer prediction with pointer-augmented transformers

我们通过迭代译码来预测这个问题的答案,使用完全相同的变压器层作为解码器。我们以自回归的方式对答案逐字解码,总共有T步,其中每个解码的单词可以是图像中的OCR标记,也可以是我们频繁回答单词的固定词汇表中的一个单词。如图2所示,在解码过程的每一步,我们都对先前预测的词进行嵌入,并基于动态指针网络的变压器输出预测下一个答案词

  1. 从固定单词表:
    在这里插入图片描述
  2. 从动态OCR:
    在这里插入图片描述
  3. 在预测过程中,我们选取固定答案词汇表分数和动态OCR复制分数的所有连接上的argmax,从所有V+N候选项中选择得分最高的元素(词汇表单词或OCR标记)。
    在这里插入图片描述

在我们的迭代自回归解码过程中,如果解码时间步t的预测是一个OCR令牌,我们将其OCR表示xocrn作为变压器输入xdect+1提供给下一个预测步骤t+1。否则(前面的预测是来自固定答案词汇表的一个单词),我们输入其相应的权重向量wvoc。作为下一步的输入xdect+1。此外,我们还添加了两个额外的d维向量作为输入——一个对应于步骤t的位置嵌入向量,以及一个对应于先前预测是固定词汇表词还是OCR标记的类型嵌入向量。与机器翻译类似,我们用两个特殊的令牌来增加我们的回答词汇表,<开始>和<结束>。这里使用作为第一个解码步骤的输入,我们在预测后停止解码过程。

确保因果关系回答解码,我们面具的注意权重的变压器架构[48]问题词,检测对象和OCR令牌不能参加任何解码步骤,和所有解码步骤只能参加之前的解码步骤除了问题,检测对象和OCR令牌。这类似于前缀LM技术。

experiment

我们在TextVQA任务的三个具有挑战性的数据集上评估了我们的模型,包括TextVQA[44]、ST-VQA[8]和OCR-VQA[37]。

Evaluation on the TextVQA dataset

在这里插入图片描述

在这里插入图片描述

Evaluation on the ST-VQA dataset


在这里插入图片描述

Evaluation on the OCR-VQA dataset

在这里插入图片描述
在这里插入图片描述

conclusion

在本文中,我们提出了多模态多拷贝网格(M4C),用于基于对图像中文本的理解和推理的视觉问题回答。M4C对图像中的文本采用丰富的表示,通过联合嵌入空间上的指针增强多模态转换架构联合建模所有模式,并通过迭代解码预测答案,在TextVQA任务的三个具有挑战性的数据集上大大超过之前的工作。我们的结果表明,通过领域特定的嵌入和同质自注意来处理多种模式,并生成复杂的答案作为多步解码,而不是一步分类。

related work

VQA based on reading and understanding image text

Multimodal learning in vision-and-language tasks

Dynamic copying with pointers

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值