Scene Text VQA

最新推荐文章于 2025-02-10 10:00:00 发布

安徒生在ACL讲一千零一夜

最新推荐文章于 2025-02-10 10:00:00 发布

阅读量490

点赞数

分类专栏： # 文献阅读文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_63595187/article/details/132815725

版权

文献阅读专栏收录该内容

9 篇文章

订阅专栏

2019-ICCV

一、摘要和结论

Abstract

目前 VQA 数据集没有考虑图像中文本传递的丰富语义信息。

成果

新的数据集 ST-VQA
- 目的：强调在 VQA 过程中利用图像中文本作为线索的高级语义信息的重要性。
在 ST-VQA 数据集上提出了一系列难度增加的任务。
- 在这些任务中，阅读由视觉信息提供的上下文中的场景文本是推理和生成适当答案所必须的。
针对这些任务提出新的评估指标
- 用于解释推理错误和文本识别模块的缺点
提出了一系列 baseline 方法

Conclusion

为 VQA 领域引入一个新的相关维度。提出一个新的 VQA 数据集，Scene Text VQA，旨在强调适当利用图像中以场景文本形式呈现的高级语义信息的重要性，以告知 VQA 过程。

数据集包含高度可变性的问题以及对应答案，并对于当前的 VQA 方法提出了极其困难的挑战。通过使用 baseline 方法进行一系列实验，彻底分析 ST-VQA 数据集，这些实验简历里较低的性能界限，并提供了重要的见解。
尽管我们演示了通用 VQA 模型添加文本信息可以带来改进，但同时，baseline 模型（例如基于 OCR 的，确实利用了上下文词汇）可以做的更好，这就加强了对不同方法的需求。

现有 VQA 模型通常将该问题作为分类任务来处理，但在基于场景文本的情况下，类的数量可能是难以解决的问题。相反，在需要一个生成的 pipeline（如在图像标题中使用的 pipeline）来捕获多单词构成的答案，以及从字典字符串（如数字、车牌或代码）中获得答案。

本文提出的平均归一化 Levenshtein 相似度（Average Normalized Levenshtein Similarity）指标比评价分类性能更适合生成模型，同时对文本识别性能具有平滑响应。

二、文献综述

Introduction

当前的 VQA 数据集和模型存在严重的局限性，对于需要理解场景文本的问题，结果令人失望。为了更接近人类的推理，我们认为在视觉和文本信息的基础上回答问题是必要的。

目前的 VQA 模型主要基于经典和操作性（工具性）条件的原理。这样的模型，显示重要的数据集偏差以及计数、比较和识别属性的失败。这些局限性使得目前的模型不适合集成场景文本信息，场景文本信息往往是正交的，而且与图像的视觉统计不相关。

ST-VQA

我们提出了一个新的数据集，ST-VQA。其中的问题和答案是通过以下方式获得的，问题只能基于图像中呈现的文本进行回答。
从具有通用问题/答案对的数据集中提取大多数（85.5%）ST-VQA 图像，这些问题/答案可以与 ST-VQA 结合，建立一个更通用的、整体的 VQA 任务。
在这里插入图片描述

此外，引入三个增加了难度的任务，模拟不同程度的上下文信息的可用性。

最后定义类一个新的评估指标，以更好地识别模型的回答能力，使用 Levenshtein 距离来考虑推理错误和文本识别子系统的缺陷。

Related Work

文本检测

自然图像中的文本检测和识别任务为通用的 VQA 系统奠定了基础，该系统可以将文本线索整合到完整的场景理解中。
阅读系统中最常见的方法步骤：

文本检测
识别
现有关于寻址文本检测的工作大多基于全卷积神经网络 FCNN

文本识别

将单词级别的文本识别作为一个分类问题（单词识别），从 90K 英语单词词汇表中识别文本。使用 Connectionlist Temporal Classification 的方法被广泛应用于场景文本识别。
后来的工作重点是 end-to-end 架构。主要由作为 encoder 的 CNN 和作为 decoder 的 LSTM 组成。

VQA

旨在为关于图像的给定自然语言问题提供答案。尽管 VQA 很受欢迎，但除了 TextVQA 之外没有任何现有数据集考虑图像中的文本内容。在我们的工作中，利用图像中找到的文本信息是解决 VQA 任务的唯一方法。

多模态问答

与文本提出的任务相关的是在条形图和图表的问答方面的最新工作，在机器打印文档图像的 QA 方面的工作，以及教材书问答方面的工作。教材问答 TQA 数据集旨在回答给定文本、图表和图像上下文的多模态问题，但文本信息是以计算机可读的格式提供的，而数据集图表和图表并非如此，这意味着模型需要某种文本识别来解决此类 QA 任务。

TextVQA

TextVQA 是一个并发的工作。与 ST-VQA 类似，TextVQA 为 VQA 提出了一个替代数据集，它需要阅读和推理场景文本。此外还引入了一种新颖的体系结构，将标准 VQA 模型和独立训练的 OCR 模块与一种“复制”机制结合在一起，该机制收到指针网络的启发，允许在需要时使用 OCR 识别的单词作为预测答案。TextVQA 和 ST-VQA 数据集在概念上是相似的，尽管在实现和设计选择上存在重要的差异。

TextVQA 和 ST-VQA 的对比

在 ST-VQA 的工作中，我们使用了多个不同的源图像数据集，包括场景文本理解数据集，而在TextVQA的情况下，所有的图像都来自一个单一的源，即 Open images 数据集。为了选择要为 ST-VQA 注释的图像，我们显式地要求提供两个最少数量的文本实例，而在 TextVQA 中，图像是在类别的基础上采样的，强调预期包含文本的类别。在提供的问题方面，ST-VQA 关注的问题，可以明确地直接使用部分图像文本作为答案，而在 TextVQA 中，任何需要阅读图像文本的问题都是允许的。

尽管有差异，但两个数据集是高度互补的，因为使用的图像源互不相交，这为两个数据集之间 转移学习 创造了机会，并可能结合数据用于具有更大泛化能力的训练模型。

三、理论研究

ST-VQA

总的来说，本文提出的ST-VQA数据集包括23,038幅图像，其中31,791个问题/答案对被分割成19,027幅图像(26,308个问题用于训练)和2993幅图像(4,163个问题用于测试)。

任务

定义了三个适合 ST-VQA 数据集的新任务，即“强语境化”、“弱语境化”和“开放字典”
这些任务的不同之处可以截石位人类如何利用先验知识来讨论他们的现状。ST-VQA 中的这种先验知识是作为字典提供的，每个任务都不同。DVQA 和场景文本理解也使用了类似的 dynamic per-image dictionaries 的方法。我们对任务的规划受到之前概念的启发，每个任务的难度逐渐增加。

强语境化任务

我们通过为所描述的特定场景创建一个图像字典来捕获这种先验知识。
遵循 end-to-end 单词识别的标准实践，为每幅图像创建一个字典，其中包含了不光在该图像上的答案中出现，还在问题中被定义的单词，以及一系列干扰物。
干扰物有两种产生方式：

包含应用在图像上的文本识别器返回的场景文本实例
利用场景的语义理解获得的词组成，以动态词汇生成模型的输出形式

强语境化任务的字典长度为 100 个单词，每幅图像都有定义。

弱语境化任务

提供一个包含数据集答案中的所有单词的字典。
为所有数据集的图像提供了一个包含 30,000 个单词的唯一字典，该字典是通过收集所有 22k 个 ground truth 单词和 8k 个干扰物形成的。

开放字典任务

讲问题视为白板，没有先验和外部信息可以用于模型。
没有提供额外信息，因此可以将其视为一个开放词典任务。

通过提出以上任务，以一种具有一定优势的新颖方式构想了 VQA 问题。首先，为先验信息的自动处理和生成及其对模型设计和性能的影响的研究奠定了基础。其次，为 end-to-end 阅读系统提供了一个有趣的训练场地，提供的词典可以用于主要的文本识别方法。

四、实验

除了利用所有可用信息（视觉信息、场景文本和问题）的 baseline 外，还特意包含了一个 baseline ：忽略了一个或多个可用信息的 baseline，以建立性能的下限。我们使用以下的 baseline 来评估数据集：

Random：作为评估无目标机会（aimless chance）的一种方法，我们返回一个从为每个任务提供的字典中随机的单词
Scene Text Retrieval：利用 single shot 的 CNN 架构，同时预测了边框和字符的金字塔直方图 Pyramidal Histogram Of Characters（PHOC）。PHOC 是单词的一种紧凑表示，考虑每个字符的空间位置来构造结果编码。这个 baseline 忽略了 图像的问题和其他任何视觉信息 。定义了两种方法，一种是 STR Retrieval，使用特定的任务字典作为给定图像的查询，并返回检索到前一个单词作为答案。第二个是 STR bbbox，根据直觉人类倾向于形成关于图像中最大文本实例的问题。我们从找到的最大边界框中获得文本表示，然后在相应字典中找到最近的邻接单词。
Scene Image OCR：使用最先进的文本识别模型来处理测试集图像。根据可信度评分对检测到的文本进行排序，并使用最可信的文本检测与任务 1 2 提供的词汇之间最接近的匹配作为答案，在任务 3 中直接采用最可靠的文本检测作为答案。
Standard VQA models：评估了两个标准的 VQA 模型。
1. SAAA：由 CNN-LSTM 体系结构组成。一方面利用 ResNet-152 提取尺寸为 14x14x2048 的图像特征，另一方面利用多层 LSTM 对问题进行标记和嵌入。在图像特征与问题嵌入相结合的基础上，得到了多个注意图 glimpses。将注意力扫过图像特征的结果和 LSTM 最后状态串接并送到两个完全连通的层中，从而得到根据类别的答案概率分布。我们使用 adam 对模型进行优化，batch_size=128，epoch=30。初始学习率为 0.001，每 50K 次迭代衰减一半。
2. SAN：使用一个预先训练的 VGGN。CNN 获得形状为 14x14x512 的图像特征。提出了两种问题的编码方法，一种使用 LSTM，另一种使用 CNN，根据评估的数据集，两种方法都得到了相似的结果。由 CNN 或 LSTM 编码的问题和图像特征一起使用来计算两个注意力图，然后与图像特征一起使用来输出一个分类向量。我们对模型进行了优化，batch_size=100,epoch=150。使用的优化器是 RMSProp，初始学习率为 0.0003，衰减值为 0.9999。
3. 总的来说，根据输出分类向量提出了三个不同的实验。第一个，通过选择ST-VQA训练集中最常见的1k答案字符串形成。对于第二个问题，我们选择了5k最常见的答案，这样我们就可以看到输出向量在两个VQA模型中逐渐增加的效果。在第三种方法中，使用在训练集中找到的所有答案(19,296)来复制场景文本图像的大范围词汇量，并捕获在训练集中找到的所有答案。
Fusion Modalities - Standard VQA models + Scene Text Retrieval：使用前面描述的 VQA 模型，这个 baseline 的目的是将从场景文本检索模型获得的文本特征与现有的 VQA pipeline 结合起来。为此使用[13]中的模型，并在执行非最大抑制步 NMS 之前使用输出张量。在阈值以上最可靠的 PHOC 预测被选择相对于单个网格单元。所选特征形成一个大小为 14x14x609 的张量，在前面描述的两个 VQA baseline 上计算注意图之前，将其与图像特征连接起来。然后使用相关特征输出分类向量上的概率分布，使用前面描述的相同的策略对模型进行优化。