【论文阅读】TextCaps: a Dataset for Image Captioning with Reading Comprehension

motivation

task

为了研究如何在图像中理解文本,我们收集了一个新的数据集,textcap,为28k图像的145k标题。我们的数据集挑战了一个模型,即识别文本,将其与视觉上下文联系起来,并决定复制或改写文本的哪一部分,需要在多个文本标记和视觉实体之间进行空间、语义和视觉推理。我们研究基线并调整现有的方法来适应这项新任务,我们称之为阅读理解的图像字幕(image captioning with reading comprehension)

Note:将OCR标记合并到句子中

difficulty

现有条件:
近年来,随着大型标记语料库的出现,图像字幕的性能和质量稳步提高,阅读场景文本(OCR)的[8,16,22,24,34]已经成熟。
困难:
然而,虽然OCR只关注书面文本,但最先进的图像字幕方法在生成字幕时只关注视觉对象,并且不能识别和推理场景中的文本。

challenges

将OCR标记合并到句子中是一项具有挑战性的任务,因为传统词汇标记依赖于之前的文本,因此可以推断,OCR标记通常不能从上下文中预测,因此代表独立的实体从词汇表中预测一个标记和从场景中选择一个OCR标记是两个相当不同的任务,它们必须无缝地组合来处理这个任务。

步骤:

  1. 检测和提取文本/OCR令牌以及视觉背景,如图像中的对象(“红色圆圈”,“kiosk”)。
  2. 生成一个语法正确的句子,它结合了词汇表和OCR标记中的单词。

挑战:

  1. 确定不同OCR令牌之间的关系以及OCR令牌与视觉上下文之间的关系
  2. 在标题生成过程中,在模型词汇和OCR令牌之间多次切换
  3. 关于OCR令牌的解释和推断
  4. 处理OCR令牌,包括以前从未见过的(零射击)。

==>我们需要一个包含人类收集的参考句子的数据集来验证和测试阅读理解的字幕模型。

contribution

  1. 对于我们的具有阅读理解的新任务图像字幕,我们收集了一个新的数据集,TextCaps,它包含28,408张图像上的142,040个字幕,并要求模型阅读和推理图像中的文本,以生成连贯的描述。
  2. 我们分析了我们的数据集,发现它在字幕方面有几个新的技术挑战,包括在OCR令牌和词汇表之间多次切换的能力,零镜头OCR令牌,以及对OCR令牌的解释和推断。
  3. 我们的评估显示,标准字幕模型在这个新任务上失败了,而最先进的 TextVQA[33]模型,M4C[17],当使用我们的数据集文本帽进行训练时,得到了令人鼓舞的结果。我们的消融研究表明,考虑OCR令牌的所有语义、视觉和空间信息来生成高质量的字幕是很重要的。
  4. 我们对模型预测进行了人类评估,这表明最佳模型和人类之间存在显著差距,这表明了未来图像字幕研究的一个令人兴奋的途径。

related works

Image Captioning

Flickr30k[38]和COCO标题[9]数据集都是通过众包收集的。COCO标题数据集明显大于Flickr30k,并作为训练当前大多数最先进的图像字幕算法的基础。它包括164,062张图片的995,684张标题。COCO的注释者被问及“描述场景的所有重要部分”和“不要描述不重要的细节”,这导致COCO关注的是更突出的物体,而不是文本。SBU标题[27]是一个图像字幕数据集,通过从Flickr检索100万张图像和相关的用户描述,并根据关键词和句子长度进行过滤。类似地,概念标题(CC)数据集[30]也可以通过从网页中爬行图像和它们的alt文本来自动构建。对收集到的注释进行了广泛的过滤和处理,例如,用对象类(如人、城市)替换专有名称和标题,从而产生330万对图像映射对。这简化了标题生成,但同时删除了一些细节,如唯一的OCR标记。除了传统的配对数据集之外,还有像NoCaps[1]这样的数据集,面向更高级的任务。
虽然我们的TextCaps数据集也包含图像-句子对,但它主要关注图像中的文本,这带来了额外的挑战。具体来说,文本可以被视为一种额外的模式,模型在生成一个句子时必须阅读(通常使用OCR)、理解和包含它。此外,许多OCR令牌并没有出现在训练集中,而只出现在测试中(零射击)。在同时进行的工作中,[15]收集了VizWiz[5]图像上的字幕,但与文本帽不同的是,它并没有特别关注阅读理解。

Optical Character Recognition (OCR)

OCR一般包括两个步骤,即(i)检测:查找文本的位置,以及(ii)提取:基于检测到的文本边界,提取文本作为字符。 OCR可以被视为我们的阅读理解任务的图像字幕的子任务,因为人们需要知道图像中出现的文本,以生成包含文本的图像的有意义的描述。这使得OCR研究成为我们任务的一个重要和相关的主题,这还需要理解OCR标记的重要性,它们的语义意义,以及与视觉上下文和其他OCR标记的关系。最近的OCR模型已经显示出了可靠性和性能改进的[8,34,22,24,16]。然而,在我们的实验中,我们观察到OCR在我们数据集中的现实场景中远不是一个已经解决的问题。

Visual Question Answering with Text Reading Ability

最近,人们提出了三个不同的面向文本的数据集来完成视觉问题回答任务。TextVQA[33]由来自开放图像v3数据集的选定类别的28,408张图像组成,对应45,336个问题,每个问题对应10个答案。SceneTextVQA(ST-VQA) 数据集[6]的大小类似于23,038张图像和31,791个问题,但每个问题只有一个答案。这两个数据集都是通过众包的方式进行了注释。OCR-VQA[26]是一个更大的数据集(207,572张图像),可以半自动地收集起来,使用书籍封面的照片和相应的元数据。规则生成的问题由人类注释者转述。这三个数据集需要阅读和推理图像中的文本,同时考虑回答问题的上下文,这在精神上类似于文本帽。然而,图像、问答三联体并不直接适合生成描述性句子。 我们在3.2节中提供了我们和现有字幕和VQA数据集之间的额外定量比较和讨论。

TextCaps Dataset

数据集链接:textvqa.org/textcaps
(目前打不开)

数据集构建

为了拥有一组多样化的图像,我们依赖于来自开放图像v3数据集(CC2.0许可)的图像。具体来说,我们使用与TextVQA数据集[33]相同的图像子集;这些图像已经通过OCR系统[8]和人类注释器[33]被验证为包含文本。使用与TextVQA相同的图像,还允许在基于ocr的VQA和图像字幕任务之间进行多任务和转移学习场景。 这些图像由人类注释者分两个阶段进行注释。

注释者被要求在一个句子中描述一个图像,这将需要阅读图像中的文本。

评估者被要求对第一步所写的标题是否满足以下要求投赞成/否票:要求阅读图像中的文本;对给定的图像是正确的;由一个句子组成;语法正确的;不包含主观语言。5票中的大多数被用来过滤低质量的标题。评估人员的工作质量使用已知的好/坏质量的金字幕进行控制。

为每张图像收集了5个独立的标题。为测试集收集了另外的第6个标题,仅为了估计人类在数据集上的表现。注释者没有看到之前收集到的特定图像的标题,也没有两次看到同一图像。我们总共收集了28,408张图片的145,329张标题。我们遵循与TextVQA相同的图像分割来训练(21,953)、验证(3,166)和测试(3,289)集。 使用地面真实OCR进行的估计显示,在图像中出现的所有OCR标记中,平均有39.5%被收集到的人类注释所覆盖。

数据集分析

我们首先定性地讨论了文本帽的几个属性,然后将其统计数据与其他字幕和基于ocr的VQA数据集进行了分析和比较。

定性分析

们要求注释者阅读和使用图像中的文本,但我们没有限制它们直接复制文本。因此,我们的数据集还包含标题,其中OCR标记不直接出现,而是用来推断描述,例如在图2中“水稻赢”而不是“水稻有18个,Ecu有17个”。在对640个标题的人类评估中,我们发现大约20%的图片至少有一个标题(8%的标题),这需要更具挑战性的推理或释义,而不仅仅是直接复制可见的文本。然而,即使是需要直接复制文本的标题也可能很复杂,并且可能需要高级推理,如图2中的多个示例所示。收集到的标题并不局限于简单的模板“表示Y的对象X”。我们观察到场景中文本和其他物体之间的各种关系,这些关系如果没有阅读理解是不可能形成的。

数据集统计情况

要正确地放置文本帽,请使用w.r.t.其他图像字幕数据集,我们将文本字幕与其他突出的图像字幕数据集进行比较,即COCO[9]、SBU[27]和概念字幕[30],以及面向阅读的VQA数据集TextVQA[33]、ST-VQA[6]和OCR-VQA[26]。SBU的平均标题长度分别为12.0个单词,概念标题为9.7个单词,COCO为10.5个单词。
在这里插入图片描述

TextCaps的平均长度为12.4,略大于其他长度(见图3)。这可以用这样一个事实来解释:文本字幕中的字幕通常包括场景描述以及一个句子中的文本,而传统的字幕数据集只涵盖场景描述。同时,TextVQA的平均答案长度为1.53,ST-VQA为1.51,OCR-VQA为3.31,远小于我们数据集中的标题。典型的答案,如“是”、“二”、“可口可乐”,可能足以回答一个问题,但不足以全面描述这张图片

图4比较了COCO和TextCaps数据集之间具有特定数量的OCR标记的标题的百分比。与COCO相比,TextCaps在标题和图像中有更多的OCR标记 (注意0时的高百分比)。一小部分(2.7%)的COCO标题包含OCO标记,大多限于每个标题一个令牌;只有0.38%的标题包含两个或两个以上令牌。而在TextCaps中,多字阅读更为常见(56.8%),这对于捕捉真实世界的信息(如作者、标题、纪念碑等)至关重要。此外,COCO标题包含不到350个唯一的OCR标记,而TextCaps包含39.7k个标记。
在这里插入图片描述

我们还测量了标题中OCR令牌的频率。图5a显示了一个特定的OCR令牌出现在标题中的次数。超过9000个标记在整个数据集中只出现一次。该曲线在5次出现后迅速下降,只有一小部分标记出现了10次以上。定量地说,75.7%的标记呈现少于5次,只有12.9%的标记呈现超过10次。该分布特别展示了在自然图像中出现的文本的大差异,这对使用固定的单词词汇表进行建模具有挑战性

除了这个长尾分布,我们发现一个令人印象深刻的29016329独特的OCR标记出现在测试集标题,既没有出现在训练和验证集(即 “零镜头” ),这使得必要的模型能够阅读图像中的新文本。TextCaps数据集还为模型创造了新的技术挑战。图5b说明了 由于在标题中经常使用OCR标记,模型需要经常在OCR和词汇词之间切换。 大多数TextCaps标题需要切换两次或更多,而大多数COCO和TextVQA输出即使没有任何开关也可以生成。

Benchmark Evaluation

baselines

我们的基线旨在说明传统的最先进的图像字幕模型(BUTD[4],AoANet[18])与最近的包含阅读的架构(M4C[17])的性能之间的差距。
Bottom-Up Top-Down Attention model (BUTD) [4]:是一种被广泛应用的图像字幕模型,基于更快的R-CNN[29]目标检测特征(自下而上)和注意力加权LSTM层(自上而下)
Attention on Attention model (AoANet):是当前的一种SoTA字幕算法,它使用注意对注意模块(AoA)在编码器和解码器中创建参与向量之间的关系。
M4C-Captioner:M4C[17]是一个最近的模型,在TextVQA任务上具有最先进的性能。该模型通过将不同的模式嵌入到一个公共语义空间,并用一个多模态变压器处理它们。除此之外,与传统的VQA模型通过分类进行预测不同,它可以通过动态指针网络[25,36]实现迭代答案解码,允许模型生成多单词答案,而不局限于固定的词汇表。这个特性使它也适用于基于阅读的标题生成。我们通过删除问题输入,并直接使用它的多字回答解码器,该解码器生成基于图像中检测到的对象和OCR令牌的标题(我们将此模型称为M4C-Captiner,并在图6中进行说明)。

在这里插入图片描述
M4C-Captioner ablations:与完整版本相比,我们还评估了这个模型的一个限制版本,没有访问OCR结果(称为M4C-Captinonerw/oOCR),其中我们使用一个空的OCR令牌列表作为模型的输入。此外,我们还尝试从M4C-捕获器中删除指针网络(在 [17] 中详细描述),这样模型仍然可以访问OCR特性,但不能直接复制OCR令牌,并且必须使用其固定词汇表生成标题(称为M4C-捕获器,不复制)。由于M4中默认的OCR标记使用多种类型的特征(与[17]相同),我们进一步研究了每种OCR特征类型的影响,并且只使用空间信息(OCR标记的四维相对边界框坐标[xmin,ymin,xmax,ymax])、语义信息(FastText[7]和PHOC[2]),以及视觉(更快的R-CNN[29])的特征。此外,我们使用人类注释的地面真相OCR标记(称为M4C-Captinonerw/GTOCR)进行训练和预测5来研究自动OCR方法错误的影响。
人类的表现:除了我们的基线之外,我们还通过在TextCaps测试集上使用相同的指标来提供对人类性能的估计,以基准测试模型仍然需要取得的进度。如第4.3节中所讨论的,我们为测试集中的每个图像多收集了一个标题。然后,通过将6次运行的结果平均来计算这些指标,每次都遗漏一个标题作为预测,类似于[14]。在测试集上,我们使用相同的方法来评估机器生成的标题,因此数字具有可比性。

Experimental setup

我们遵循默认的配置和超参数来训练和评估每个基线。对于AoANet,我们使用了原始的实现和特征提取技术。对于BUTD[4],我们使用了来自MMF[32,31]的实现和超参数。对于M4c-捕获器[17],我们遵循与TextVQA任务[17]相同的实现细节。我们在文本帽训练集上对两个模型进行相同的训练。在标题生成过程中,我们删除了标记(对于未知的单词)。
数据集。我们首先评估使用在文本帽上的COCO数据集训练的模型,以演示现有的数据集和模型如何缺乏阅读理解。然后,我们使用TextCaps来训练和评估每个基线。
指标。除了自动字幕指标,包括BLEU[28],流星[11],rougeL[23],spice[3],和CIDEr[35],我们还进行人类评估。我们在李克特量表上收集了从1分到5分的5000个人类分数对于200张图像的随机样本,并计算每个标题的中位数分数。图7显示,句子质量的排名与自动指标相同。此外,所有的指标都与人类分数的相关性非常高,但CIDEr和流星得分最高。为了比较不同的方法,我们关注CIDEr,它对标题中的信息n克(如OCR令牌)有更多的权重,而对具有TF-IDF权重的常用词的权重更少。

Results

在这里插入图片描述

  1. 在COCO字幕数据集上(第1行)获得的CIDEr得分最低,这表明它不能描述图像中的文本。
  2. 当在TextCaps数据集(第2行)上进行训练时,BUTD模型如预期的那样得分更高,因为在训练和评估之间不再有领域转移。
  3. AoANet(第3,4行)是一个更强的字幕模型,其性能优于BUTD,但仍不能处理阅读理解,且性能大大低于M4c-captiner。
  4. 对于M4C-Captinoner模型,在有和没有OCR输入的训练之间有很大的差距(特别是CIDEr分数)(第13行和第7行)。
  5. 此外,“M4C-无复制的捕获器”(第8行)比完整的模型(第13行)要差,但比更受限制的“M4C-无ocr”(第7行)要好。结果表明,同时编码OCR特征和能够直接复制OCR标记都是很重要的。
  6. 我们还观察到(在第13行vs.9-12行),一个模型同时使用OCR标记的空间、视觉和语义特征是很重要的,特别是在OCR标记的复杂组合中,空间关系和语义在寻找单词之间的联系方面都发挥着重要作用。
  7. 在测试集上,我们仍然注意到在最佳机器性能(第17行)和人类性能(第19行)之间有很大的差距。
  8. 此外,使用地面真实的ocr(第18行)减少了这一差距,但仍然没有缩小它,这表明在更好的推理和更好的文本识别方面仍有未来改进的空间。

在这里插入图片描述
图8显示了来自不同方法的定性示例。
可以看出,没有OCR输入的BUTD和M4C捕获很少在图像中提到文本,除了常见的品牌标识,如“pepsi”,容易视觉识别。另一方面,完整的M4c-captinoner方法学习阅读图像中的文本,并在生成的标题中提到它。
此外,M4C-Captinoner学习和识别对象之间的关系,并能够将多个OCR标记组合成一个复杂的描述。例如,在图8(d)中,模型使用OCR令牌来正确命名阻止另一个玩家;在图8(e)中,模型试图将多个令牌包含并组合到一个消息中(“轨道在基诺沙被移动”,而不是“移动的单词,单词轨道,单词基诺沙在符号上”)。
在图8中,(b)预测完全是由词汇表构建的,即使这样,模型也会计算类似的对象,并返回“两个百事瓶”,而不是“百事瓶和百事瓶”。
我们还观察到在模型预测中有大量的错误。许多错误是由于错误的场景理解和对象识别,这是字幕算法中常见的问题
我们还观察到,将OCR标记放置在标题中错误的对象或语义上下文中(图8(c,e)),标题中OCR标记的错误重复(图8(a,e)),或模型对它们的使用不足(图8(f))。有些错误(如图8(d)中的“数字3”是由于OCR检测算法的错误,而不是字幕模型造成的。这为这一具有挑战性的生成任务的未来发展指出了许多潜在的方向,这需要视觉和文本的理解,需要新的模型设计,在概念上不同于以前现有的字幕模型。
在这里插入图片描述
M4C-Caxtcap训练和Cextcainer对COCO数据的预测的例子。 可以观察到,尽管在这两种情况下都有OCR模块,但使用TextCaps推动模型来读取文本。方括号表示从OCR复制的令牌。

在此设置中,我们实验在TextCaps数据集和COCO数据集上同时训练M4CCaptinoner(表1的最佳值)。我们平衡了在训练过程中,模型从COCO和TextCaps中看到的样本数量,并将训练后的模型应用于COCO验证集。COCO标题主要集中在视觉对象上,但我们展示了几个例子,在那里阅读需要描述图9中的场景。当对我们的数据集和COCO的联合进行训练时,M4C-captinoner学习生成包含图像中出现的文本的标题。另一方面,同一模型在单独接受COCO训练时,只描述了视觉对象,而没有提及任何文本。

conclusion

图像标题与阅读理解是一项新颖的具有挑战性的任务,需要模型读取图像中的文本,识别图像内容,并共同理解这两种模式,以生成一个简洁的图像标题。为了使模型能够学习这种能力并单独研究这项任务,我们收集了包含142k个标题的textcap。标题包括与从图像中复制或重新措辞的OCR令牌相关的混合对象描述和/或视觉场景描述。在大多数情况下,OCR标记必须被复制并与视觉场景相关,但有时OCR标记必须被理解,有时需要图像中文本和对象之间的空间或视觉推理,如我们的消融研究所示。我们的分析还指出了这个数据集的几个挑战:与其他字幕数据集不同,我们几乎所有的字幕都需要集成OCR令牌,许多是看不见的(“零镜头”)。与TextVQA数据集相比,TextCap需要生成长句子,并涉及到新的技术挑战,包括在OCR和词汇表令牌之间的许多切换。

我们发现,目前最先进的图像字幕模型不能读取时,训练现有的图像字幕数据集。然而,当调整最近的M4CVQA模型适应我们的任务并在我们的文本帽数据集上进行训练时,我们能够在文本帽和COCO上生成令人印象深刻的标题,这涉及复制多个OCR令牌并将它们正确地将它们集成到标题中。我们的人类评估证实了自动指标的结果与非常高的相关性,也表明,人类字幕仍然明显优于自动生成的,留下许多进步的空间在未来的工作中,包括更好的语义理解图像和文本之间的内容,缺失的推理能力,和阅读长文本或单个字符。我们希望我们的挑战服务器数据集,可在textvqa.org/textcaps上获得,将鼓励社区为这项新任务设计更好的图像字幕模型,并解决其技术挑战,特别是增加它们在帮助视觉残疾人方面的有用性。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值