概述
1. 核心问题:
STVQA(Scene-Text Visual Question Answering)场景文本视觉问答,利用场景图片中的文本回答问题
(相关概念: OCR(Optical Character Recognition)图片文字识别)
需要利用多种模态的语义信息进行推理(视觉、语言、场景文本)
需要模型具有的能力:
(1)先验信息和知识
(2)利用视觉、语言、场景文本信息做推理
2. 研究背景:
大概分为三种问题:
(1)仅仅用文本信息可以回答
(2)用文本和空间布局信息可以回答
(3)用文本、空间布局信息和视觉特征可以回答
(在当前的数据集下,大多数问题都属于前两类)
引用2020年的工作:TAP方法(text-aware pre-training)【缺陷是:获取大量带有场景文本的自然图片是困难的,并且获取到的图片中的文本比较稀疏;更重要的是,在设计预训练目标函数时没有考虑到空间布局信息和语义表征的融合】
Contributions:
(1)认识到文