论文翻译-Scene Text Detection and Recognition: The Deep Learning Era

最新推荐文章于 2024-04-24 18:44:38 发布

快乐的小小程序猿

最新推荐文章于 2024-04-24 18:44:38 发布

阅读量863

点赞数 1

文章标签：深度学习论文翻译

本文链接：https://blog.csdn.net/xu_benjamin/article/details/120057323

版权

论文翻译-Scene Text Detection and Recognition: The Deep Learning Era

原文地址：https://arxiv.org/pdf/1811.04256v5.pdf
【推荐】相关阅读资料下载：
链接：https://pan.baidu.com/s/1YZJoLf056orlmiuQ3u6IuA
提取码：plny
【注】：翻译仅供参考，准确含义和表达参考英文原文

场景文本检测和识别：深度学习时代的到来

摘要

随着深度学习的兴起和发展，计算机视觉已经发生了巨大的变化和重塑。作为计算机视觉的一个重要研究领域，场景文本检测和识别不可避免地受到这一革命浪潮的影响，随之进入了深度学习的时代。近年来，该领域在思维方式、方法论和性能方面都取得了实质性的进展。本调查旨在总结和分析深度学习时代场景文本检测和识别的主要变化和重大进展。通过这篇文章，我们致力于(1）介绍新的见解和想法；（2）强调最近的技术和基准；（3）展望未来的趋势。具体来说，我们将强调深度学习所带来的巨大差异和剩余的巨大挑战。我们期望这篇评论文章能成为该领域研究人员的参考书。相关资源也收集在我们的Github资源库（https://github.com/Jyouhou/SceneTextPapers）。

1 引言

毋庸置疑，文本是人类最杰出和最有影响力的创造之一。作为人类语言的书面形式，文本使其能够可靠而有效地跨越时间和空间传播或获取信息。在这个意义上，文本构成了人类文明的基石。一方面，作为沟通和协作的重要工具，文本在现代社会中一直发挥着比以往更重要的作用；另一方面，文本所体现的丰富而精确的高级语义可以有利于理解我们周围的世界。例如，文本信息可用于广泛的现实世界应用，如图像搜索（Tsai等人，2011；Schroth等人，2011）、即时翻译（Dvorin和Havosha，2009；Parkinson等人，2016）、机器人导航（DeSouza和Kak，2002；Liu和Samarabandu，2005a、b；Schulz等人，2015）和工业自动化（Ham等人，1995；He等人，2005；Chowdhury和Deb，2013）。因此，从自然环境中自动阅读文本，如图1所示，又称场景文本检测和识别（Zhu等人，2016）或PhotoOCR（Bissacco等人，2013），已成为计算机视觉领域越来越受欢迎的重要研究课题。然而，尽管经过多年的研究，在野外检测和识别文本时仍可能遇到一系列的巨大挑战。这些困难主要来自于三个方面。

自然场景中的文本的多样性和可变性与文件中的脚本不同，自然场景中的文本表现出更高的多样性和可变性。例如，场景文本的实例可以是不同的语言、颜色、字体、大小、方向和形状。此外，场景文本的长宽比和布局可能有很大的不同。所有这些变化给为自然场景中的文本设计的检测和识别算法带来了挑战。
背景的复杂性和干扰性自然场景的背景实际上是不可预测的。可能有与文字极其相似的图案（如树叶、交通标志、砖头、窗户和栅栏），或由外来物体造成的遮挡，这有可能导致混淆和错误。
不完善的成像条件在不受控制的情况下，文字图像和视频的质量不能得到保证。也就是说，在不良的成像条件下，由于不适当的拍摄距离或角度，文本实例可能是低分辨率和严重失真，或因失焦或摇晃而模糊，或因光线不足而有噪音，或因高光或阴影而损坏。

图1 场景文本检测和识别的示意图。图片样本来自total-text（Ch’ng and Chan 2017）。

这些困难贯穿了深度学习在计算机视觉以及其他领域显示其潜力之前的几年。随着深度学习在AlexNet（Krizhevsky等人，2012）赢得ILSVRC2012（Russakovsky等人，2015）比赛后崭露头角，研究人员转向深度神经网络的自动特征学习，并开始进行更深入的研究。现在社区正在研究越来越多的挑战性目标。近年来取得的进展可以总结为以下几点。

深度学习的融入几乎所有最近的方法都建立在深度学习模型之上。最重要的是，深度学习将研究人员从反复设计和测试手工制作的特征的繁重工作中解脱出来，这就催生了大量的作品，进一步推动了研究的发展。具体来说，深度学习的使用大大简化了整个管道，如图3所示。此外，这些算法在标准基准上比以前的算法有明显的改进。基于梯度的训练程序也有助于实现端到端的可训练方法。
以挑战为导向的算法和数据集研究人员现在正转向更具体的方面和挑战。针对现实世界场景中的困难，新发表的数据集被收集起来，具有独特和代表性的特征。例如，有一些数据集分别以长文本（Tu等人，2012）、模糊文本（Karatzas等人，2015）和弯曲文本（Ch’ng和Chan，2017）为特色。在这些数据集的驱动下，近年来发表的几乎所有算法都是为了解决特定的挑战。例如，有些算法被提出来检测有方向性的文本，而另一些则是针对模糊的和没有焦点的场景图像。这些想法也被结合在一起，形成更多的通用方法。
辅助技术的进展除了专门用于主要任务的新数据集和模型外，不直接解决任务的辅助技术也在这个领域找到了自己的位置，如合成数据和引导。
在这项调查中，我们概述了基于深度学习的静态场景图像文本检测和识别的最新发展。我们从不同角度回顾了各种方法，并列出了最新的数据集。我们还分析了现状和未来的研究趋势。
已经有几篇优秀的评论论文（Uchida 2014; Ye and Doermann 2015; Yin et al. 2016; Zhu et al. 2016），也对文本检测和识别相关的工作进行了整理和分析。然而，这些论文是在深度学习在该领域崭露头角之前发表的。因此，它们主要集中在更传统和基于特征的方法上。我们希望读者也能参考这些论文，以获得对该领域历史的更全面的看法和知识。本文将主要关注静态图像中的文本信息提取，而不是视频。对于视频中的场景文本检测和识别，也请参考Jung等人（2004）和Yin等人（2016）。
本文的其余部分安排如下。在第2节，我们简要回顾了深度学习时代之前的方法。在第3节中，我们列出并总结了基于深度学习的算法。第3节，我们按层次顺序列出并总结了基于深度学习的算法。请注意，我们并不是按论文的顺序来介绍这些技术，而是根据其方法的分类来介绍。如果一些论文对多个方面有贡献，它们可能会出现在几个部分。在第4节，我们看一下数据集和评估协议。最后，在第5节和第6节，我们介绍了潜在的应用和我们自己对目前状况和未来趋势的看法。

2 深度学习时代之前的方法

在本节中，我们回顾一下深度学习时代之前的算法。对这些工作更详细全面的报道可以在Uchida（2014）、Ye和Doermann（2015）、Yin等人（2016）和Zhu等人（2016）中找到。对于文本检测和识别，人们关注的是特征的设计。
在这里插入图片描述

图2 传统方法与手工制作的特征的说明。(1)最大稳定区域(MSER)(Neumann和Matas 2010)，假设每个字符内的色度一致；(2)笔画宽度变换(SWT)(Epshtein等人，2010)，假设每个字符内的笔画宽度一致。

在这一时期，大多数文本检测方法要么采用连接成分分析（CCA）（Huang等人，2013；Neumann和Matas，2010；Epshtein等人，2010；Tu等人，2012；Yin等人，2014；Yi和Tian，2011；Jain和Yu，1998），要么采用基于滑动窗口（SW）的分类（Lee等人，2011；Wang等人，2011；Coates等人，2012）。基于CCA的方法首先通过各种方式（如颜色聚类或极端区域提取）提取候选成分，然后使用手工设计的规则或根据手工制作的特征自动训练的分类器过滤掉非文本成分（见图2）。在滑动窗口分类方法中，不同大小的窗口在输入图像上滑动，每个窗口都被归类为文本片段/区域或不是。那些被归类为正面的文本被进一步归类为具有形态学操作（Lee等人，2011）、条件随机场（CRF）（Wang等人，2011）和其他基于图的替代方法（Coates等人，2011；Wang等人，2012）的文本区域。
对于文本识别，一个分支采用了基于特征的方法。Shi等人（2013）和Yao等人（2014）提出了基于字符段的识别算法。Rodriguez-Serrano等人（2013）、Rodriguez-Serrano等人（2015）、Gordo（2015）、Almazán等人（2014）利用标签嵌入来直接进行字符串和图像之间的匹配。笔画（Busta等人，2015）和字符关键点（Quy Phan等人，2013）也被检测为分类的特征。另一个是将识别过程分解为一系列的子问题。已经提出了各种方法来解决这些子问题，其中包括文本二进制化（Zhiwei等人，2010；Mishra等人，2011；Wakahara和Kita，2011；Lee和Kim，2013），文本线条分割（Ye等人，2003），字符分割（Nomura等人，2005；Shivakumara等人，2011）。2005；Shivakumara等人，2011；Roy等人，2009），单字符识别（Chen等人，2004；Sheshadri和Divvala，2012）和单词校正（Zhang和Chang，2003；Wachenfeld等人，2006；Mishra等人，2012；Karatzas和Antonacopoulos，2004；Weinman等人，2007）。
也有一些人致力于综合（即我们今天所说的端到端）系统（Wang等人，2011；Neumann和Matas，2013）。在Wang等人（2011年）的研究中，字符被视为物体检测中的一个特例，并由一个基于HOG特征（Dalal和Triggs，2005年）训练的近邻分类器检测，然后通过一个基于图像结构（PS）的模型（Felzenszwalb和Huttenlocher，2005年）将其归类为单词。Neumann和Matas（Neumann and Matas 2013）提出了一种决策延迟的方法，将每个字符的多次分割保留到最后阶段，此时每个字符的上下文都是已知的。他们利用极值区域检测字符分割，并通过动态编程算法解码识别结果。
总之，在深度学习时代之前的文本检测和识别方法主要是提取低级或中级手工制作的图像特征，这就需要进行苛刻和重复的预处理和后处理步骤。受制于手工制作的特征的有限表示能力和管道的复杂性，这些方法很难处理复杂的情况，例如ICDAR 2015数据集中的模糊图像（Karatzas等人，2015）。

3 深度学习时代的方法论

正如本节标题所暗示的那样，我们希望将最近的进展作为方法论的变化而不仅仅是新方法来处理。我们的结论是建立在下段所解释的观察基础上的。
在这里插入图片描述

图3 代表性的场景文本检测和识别系统管道图。 a Jaderberg等人（2016）和b Yao等人（2016）是代表性的多步骤方法。在c中，检测器和识别器是分开的。在d中，检测器将裁剪后的特征图传递给识别器，这允许端到端的训练。

最近几年的方法有以下两个特点。(1)大多数方法利用基于深度学习的模型；(2)大多数研究者从不同的角度来处理问题，试图解决不同的挑战。由深度学习驱动的方法享有这样的优势：自动特征学习可以使我们免于设计和测试大量潜在的手工制作的特征。同时，来自不同观点的研究人员正在丰富和推动社区进行更深入的工作，瞄准不同的目标，例如更快更简单的管道（Zhou等人，2017），不同长宽比的文本（Shi等人，2017a），以及合成数据（Gupta等人，2016）。我们也可以在本节中进一步看到，深度学习的加入完全改变了研究人员处理任务的方式，并远远扩大了研究的范围。这是与前一个时代相比最显著的变化。
在本节中，我们将把现有的方法分为一个分层分类法，并以自上而下的方式介绍它们。首先，我们把它们分为四种系统。(1) 文本检测，在自然图像中检测和定位文本；(2) 识别系统，将检测到的文本区域的内容转录为语言符号；(3) 端到端系统，在一个统一的管道中执行文本检测和识别；(4) 辅助方法，旨在支持文本检测和识别的主要任务，如合成数据生成。在每个类别下，我们从不同的角度回顾最近的方法。

3.1 检测

我们承认，场景文本检测在分类学上可以归入一般物体检测，而一般物体检测又可分为一阶段方法和两阶段方法。事实上，许多场景文本检测算法主要是受一般物体检测的启发并遵循其设计。因此我们也鼓励读者参考最近关于物体检测方法的调查（Han等人，2018；Liu等人，2018a）。然而，场景文本的检测具有一系列不同的特点和挑战，需要独特的方法和解决方案。因此，许多方法依靠对场景文本的特殊表示来解决这些非棘手的问题。
因此，场景文本检测算法的演变经历了三个主要阶段。(1) 在第一阶段，基于学习的方法配备了多步骤管道，但这些方法仍然缓慢而复杂。(2) 然后，一般物体检测的思想和方法被成功地植入这项任务中。(3) 在第三阶段，研究人员设计了基于子文本组件的特殊表示方法，以解决长文本和不规则文本的挑战。

3.1.1 利用深度学习的早期尝试

早期基于深度学习的方法（Huang等人，2014；Tian等人，2015；Yao等人，2016；Zhang等人，2016；He等人，2017a）将文本检测的任务处理成一个多步骤过程。他们使用卷积神经网络（CNN）来预测局部片段，然后应用启发式后处理步骤将片段合并为检测线。
在早期的尝试中（Huang等人，2014），CNN只被用来将局部图像斑块分类为文本和非文本类。他们提议使用MSER特征来挖掘这种图像斑块。然后将阳性斑块合并为文本行。
后来，CNN以完全卷积的方式应用于整个图像。TextFlow（Tian等人，2015）使用CNN检测字符，并将字符分组任务视为一个最小成本的流问题（Goldberg 1997）。
在Yao等人（2016）中，卷积神经网络被用来预测输入图像中的每个像素（1）是否属于字符，（2）是否在文本区域内，以及（3）像素周围的文本方向。连接的正反应被认为是检测到的字符或文本区域。对于属于同一文本区域的字符，应用Delaunay三角法（Kang等人，2014年），之后，根据预测的方向属性，用图形分割算法将字符分成文本行。
同样，Zhang等人（2016）首先预测了一个表明文本行区域的分割图。对于每个文本行区域，MSER（Neumann和Matas，2012）被用来提取字符候选。字符候选者揭示了底层文本行的规模和方向的信息。最后，最小边界框被提取出来作为最终的文本线候选。
He等人（2017a）提出了一个检测过程，也包括几个步骤。首先，文本块被提取出来。然后，模型裁剪并只关注提取的文本块，以提取文本中心线（TCL），它被定义为原始文本线的缩减版。每条文本线代表一个文本实例的存在。然后，提取的TCL图被分割成几个TCL。然后，每个分割的TCL被连接到原始图像上。然后，一个语义分割模型将每个像素分为属于与给定TCL相同的文本实例的像素和不属于该文本实例的像素。
总的来说，在这个阶段，场景文本检测算法仍然有很长很慢的管道，尽管它们已经用基于学习的特征取代了一些手工制作的特征。设计方法是自下而上的，并基于关键组件，如单个字符和文本中心线。
在这里插入图片描述

图4 受一般物体检测启发的方法的高层图示：a 类似于YOLO（Redmon等人，2016），根据每个锚点位置的默认边界框回归偏移量。 b SSD（Liu等人，2016a）的变种，在不同尺度的特征图上进行预测。 c 在每个锚点位置进行预测，直接回归边界框。

3.1.2 受物体检测启发的方法

后来，研究人员从快速发展的一般物体检测算法中汲取灵感（Liu et al. 2016a; Fu et al. 2017; Girshick et al. 2014; Girshick 2015; Ren et al. 2015; He et al. 2017b）。在这个阶段，场景文本检测算法是通过修改一般检测器的区域建议和边界框回归模块来直接定位文本实例的（Dai等人，2017；He等人，2017c；Jiang等人，2017；Liao等人，2017，2018a；Liu和Jin，2017；Shi等人，2017a；Liu等人，2017；Ma等人，2017b；Liao等人，2018b；张等人，2018），正如图4所示。它们主要由堆叠的卷积层组成，将输入图像编码为特征图。特征图的每个空间位置对应于输入图像的一个区域。然后，特征图被送入一个分类器，以预测每个此类空间位置的文本实例的存在和定位。
这些方法大大减少了管道，变成了一个端到端的可训练的神经网络组件，使训练更容易，推理更快。我们在此介绍最具代表性的工作。
受一阶段物体检测器的启发，TextBoxes（Liao等人，2017）通过将默认框定义为具有不同长宽比规格的四边形，使SSD（Liu等人，2016a）适应文本的不同方向和长宽比。
EAST（Zhou等人，2017）通过采用U型设计（Ronneberger等人，2015）来整合不同层次的特征，进一步简化了基于锚点的检测。输入图像被编码为一个多通道的特征图，而不是SSD中不同空间大小的多个层。每个空间位置的特征被用来直接回归底层文本实例的矩形或四边形边界盒。具体来说，文本的存在，即文本/非文本，以及几何形状，如矩形的方向和大小，以及四边形的顶点坐标，都被预测出来。EAST以其高度简化的管道和实时执行推理的效率，在文本检测领域大有作为。
其他方法适应R-CNN的两阶段物体检测框架（Girshick等人，2014年；Girshick 2015年；Ren等人，2015年），其中第二阶段根据兴趣区域（RoI）池获得的特征对定位结果进行修正。
在Ma等人（2017）的研究中，旋转区域建议网络被调整为生成旋转区域建议，以适应任意方向的文本，而不是轴对齐的矩形。
在FEN（Zhang等人，2018）中，使用了不同规模的RoI池的加权和。最终的预测是通过利用4个不同大小的池子的文本性分数来进行的。
Zhang等人（2019）提出以递归方式执行RoI和定位分支，以修订文本实例的预测位置。这是一种包括边界框的特征的好方法，它比区域提议网络（RPN）更好地定位文本。
Wang等人（2018）提出使用一个参数化的实例转换网络（ITN），该网络可以学习预测适当的仿生转换，以在基础网络提取的最后一个特征层上执行，以纠正定向文本实例。他们的方法，使用ITN，可以进行端到端的训练。
为了适应不规则形状的文本，提出了具有多达14个顶点的边界多边形（Liu等人，2017），然后用Bi-LSTM（Hochreiter和Schmidhuber，1997）层来细化预测顶点的坐标。
以类似的方式，Wang等人（2019b）提出使用递归神经网络（RNN）来读取基于RPN的两阶段物体解码器编码的特征，并预测具有可变长度的边界多边形。该方法不需要后处理或复杂的中间步骤，在Total-Text上实现了10.0FPS的更快速度。
这一阶段的主要贡献是简化了检测管道，并随之提高了效率。然而，由于接受域的限制，在面对弯曲的、定向的或长的文本时，单阶段方法的性能仍然是有限的，而对于双阶段方法，其效率也是有限的。
在这里插入图片描述

图5 基于子文本组件的代表性方法说明：a SegLink（Shi等人，2017a）：以SSD为基础网络，预测每个锚点位置的词段，以及相邻锚点之间的连接。 b PixelLink（Deng等人，2018）：对于每个像素，预测文本/非文本分类以及它是否与相邻像素属于同一文本。c Corner Localization（Lyu等人，2018b）：预测每个文本的四个角，并将属于同一文本实例的角分组。 d TextSnake（Long等人，2018）：预测文本/非文本和局部几何形状，用于重建文本实例

3.1.3 基于子文本成分的方法

文本检测和一般物体检测的主要区别在于，文本作为一个整体是同质的，并且以其局部性为特征，这与一般物体检测不同。我们所说的同质性和局部性是指文本实例的任何部分仍然是文本这一属性。人类不必看到整个文本实例就知道它属于某个文本。
这样的属性为文本检测方法的新分支奠定了基石，这些方法只预测子文本组件，然后将它们组合成一个文本实例。这些方法就其性质而言，可以更好地适应上述弯曲的、长的和定向的文本的挑战。如图5所示，这些方法使用神经网络来预测局部属性或片段，并通过后处理步骤来重新构建文本实例。与早期的多阶段方法相比，它们更依赖神经网络，而且管道更短。
在像素级方法中（Deng等人，2018；Wu和Natarajan，2017），一个端到端的全卷积神经网络学习生成一个密集的预测图，表明原始图像中的每个像素是否属于任何文本实例。然后，后处理方法根据哪些像素属于同一文本实例，将像素分组。基本上，它们可以被看作是实例分割的一个特例（He等人，2017b）。由于文本可能出现在集群中，这使得预测的像素彼此相连，像素级方法的核心是将文本实例从彼此中分离出来。
PixelLink（Deng等人，2018）通过增加额外的输出通道来表示相邻像素之间的联系，学习预测两个相邻像素是否属于同一个文本实例。
边界学习法（Wu and Natarajan 2017）将每个像素投到三个类别：文本、边界和背景，假设边界可以很好地分离文本实例。
在Wang等人（2017）的研究中，像素是根据它们的颜色一致性和边缘信息进行聚类的。融合后的图像片段被称为超级像素。这些超级像素被进一步用于提取字符和预测文本实例。
在分割框架的基础上，Tian等人（2019）提出增加一个损失项，使属于不同文本实例的像素嵌入向量之间的欧氏距离最大化，而使属于同一实例的像素嵌入向量最小化，以更好地分离相邻文本。
Wang等人（2019a）提出以不同的收缩尺度预测文本区域，并逐轮放大检测到的文本区域，直到与其他实例发生碰撞。然而，不同尺度的预测本身就是上述边界学习的一个变种（Wu and Natarajan 2017）。
组件级的方法通常以中等粒度进行预测。组件指的是文本实例的一个局部区域，有时会与一个或多个字符重叠。
代表性的组件级方法是连接主义文本提议网络（CTPN）（Tian等人，2016）。CTPN模型继承了锚定和递归神经网络的理念，用于序列标注。他们在CNN之上叠加了一个RNN。最终特征图中的每个位置都代表了相应锚点所指定区域的特征。假设文本是水平出现的，每一行的特征都被送入一个RNN并被标记为文本/非文本。诸如片段大小的几何形状也会被预测。CTPN是第一个用深度神经网络预测和连接场景文本段的方法。
SegLink（Shi等人，2017a）通过考虑段之间的多向联系，扩展了CTPN。段落的检测是基于SSD（Liu等人，2016a），其中每个默认框代表一个文本片段。默认框之间的链接被预测为表明相邻的片段是否属于同一个文本实例。Zhang等人（2020）通过使用图形卷积网络（Kipf和Welling 2016）来预测段之间的联系，进一步改进了SegLink。
角定位方法（Lyu等人，2018b）提出检测每个文本实例的四个角。由于每个文本实例只有4个角，预测结果和它们的相对位置可以表明哪些角应该被归入同一个文本实例。
Long等人（2018）认为，文本可以被表示为一系列沿着文本中心线（TCL）滑动的圆盘，这与文本实例的运行方向一致，如图6所示。有了这种新颖的表示方法，他们提出了一个新的模型–TextSnake，它可以学习预测局部属性，包括TCL/非TCL、文本区域/非文本区域、半径和方向。TCL像素和文本区域像素的交集给出了像素级TCL的最终预测。然后用局部几何图形以有序点列表的形式提取TCL。有了TCL和半径，文本线就被重建了。它在几个弯曲的文本数据集以及更广泛使用的数据集上取得了最先进的性能，例如ICDAR 2015（Karatzas等人，2015）和MSRA-TD 500（Tu等人，2012）。值得注意的是，Long等人提出了一个跨不同数据集的交叉验证测试，即模型只在有直线文本实例的数据集上进行微调，而在曲线数据集上进行测试。在所有现有的弯曲数据集中，TextSnake在F1-Score中比其他基线实现了高达20%的改进。
在这里插入图片描述

图6 a-c 将文本表示为水平矩形、定向矩形和四边形。 d TextSnake（Long等人，2018）中提出的滑动盘表示法。

字符层面的表示是另一种有效的方式。Baek等人（2019b）提议为字符中心和它们之间的链接学习一个分割图。组件和链接都是以高斯热图的形式预测的。然而，这种方法需要迭代的弱监督，因为现实世界的数据集很少配备字符级标签。
总的来说，基于子文本组件的检测在文本实例的形状和长宽比方面享有更好的灵活性和概括能力。主要的缺点是，用于将片段分组为文本实例的模块或后处理步骤可能容易受到噪声的影响，而且这一步骤的效率在很大程度上取决于实际的实现，因此在不同的平台上可能有所不同。

3.2 识别

在本节中，我们介绍了场景文本识别的方法。这些方法的输入是经过裁剪的文本实例图像，其中只包含一个单词。
在深度学习时代，场景文本识别模型使用CNN将图像编码为特征空间。主要的区别在于文本内容解码模块。两个主要的技术是连接主义时空分类（Graves等人，2006）（CTC）和编码器-解码器框架（Sutskever等人，2014）。我们根据文献中采用的主要技术来介绍识别方法。主流框架如图7所示。
CTC和编码器-解码器框架最初都是为一维序列输入数据设计的，因此适用于直线和水平文本的识别，这些文本可以被CNN编码为一连串的特征帧而不丢失重要信息。然而，定向和弯曲文本中的字符分布在一个二维空间。为了适应CTC和编码器-解码器框架，在特征空间中有效地表示定向和弯曲的文本仍然是一个挑战，其解码需要一维的输入。对于定向和弯曲的文本，直接将特征压缩成一维的形式可能会失去相关的信息，并带来来自背景的噪音，从而导致较差的识别精度。我们将引入技术来解决这一挑战。

3.2.1 基于CTC的方法

CTC解码模块采用的是语音识别，在时域中数据是连续的。为了在场景文本识别中应用CTC，输入的图像被看作是一个垂直像素帧的序列。网络输出每帧预测，表明每帧的标签类型的概率分布。然后应用CTC规则将每帧预测值编辑成一个文本字符串。在训练期间，损失被计算为所有可能的按帧预测的负对数概率之和，这些预测可以通过CTC规则生成目标序列。因此，CTC方法使其只用词级注释就可以进行端到端的训练，而不需要字符级注释。CTC在OCR领域的首次应用可以追溯到Graves等人（2008）的手写识别系统。现在这项技术在场景文本识别中被广泛采用（Su and Lu 2014；He et al. 2016；Liu et al. 2016b；Gao et al. 2017；Shi et al. 2017b；Yin et al. 2017）。
最初的尝试可以称为卷积递归神经网络（CRNN）。这些模型是在CNN的基础上堆叠RNN组成的，并使用CTC进行训练和推理。DTRN（He等人，2016）是第一个CRNN模型。它在输入图像上滑动CNN模型以生成卷积特征片，然后将其送入RNNs。Shi等人（2017b）进一步改进了DTRN，采用全卷积方法将输入图像作为一个整体进行编码以生成特征片，利用了CNN不受输入的空间大小限制的特性。
在这里插入图片描述

图7 文本识别模型的框架。 a 序列标记模型，并在训练和推理中使用CTC进行对齐。 b 序列到序列模型，并可以使用交叉熵直接学习。 c 基于分割的方法

Gao等人（2017）采用堆叠卷积层来有效捕捉输入序列的上下文依赖关系，而不是RNN，其特点是计算复杂度较低，易于并行计算。
Yin等人（2017）通过滑动文本线图像与字符模型同时检测和识别字符，字符模型是在标记有文本抄本的文本线图像上端到端学习的。

3.2.2 编码器-解码器方法

序列到序列学习的编码器-解码器框架最初是在Sutskever等人（2014）提出的，用于机器翻译。编码器RNN读取一个输入序列，并将其最终的潜伏状态传递给解码器RNN，后者以自动回归的方式生成输出。编码器-解码器框架的主要优点是它能给出可变长度的输出，这满足了场景文本识别的任务设置。编码器-解码器框架通常与注意力机制相结合（Bahdanau等人，2014），共同学习对齐输入序列和输出序列。
Lee和Osindero（2016）提出了具有注意力建模的递归递归神经网络，用于无词汇的场景文本识别。该模型首先将输入图像通过递归卷积层来提取编码的图像特征，然后通过递归神经网络将其解码为输出字符，并隐含地学习字符级的语言统计。基于注意力的机制进行软特征选择，以更好地利用图像特征。
Cheng等人（2017a）观察到现有的基于注意力的方法中的注意力漂移问题，并提出对注意力得分进行定位监督以削弱它。
Bai等人（2018）提出了一个编辑概率（EP）指标来处理地面真实字符串和注意力的概率分布输出序列之间的错位。与上述基于注意力的方法不同的是，EP通常采用帧的最大似然损失，它试图从概率分布的输出序列中估计出以输入图像为条件生成字符串的概率，同时考虑可能出现的缺失或多余的字符。
Liu等人（2018d）提出了一个高效的基于注意力的编码器-解码器模型，其中编码器部分是在二进制约束下训练的，以减少计算成本。
CTC和编码器-解码器框架都简化了识别管道，使其有可能只用词级注释而不是字符级注释来训练场景文本识别器。与CTC相比，编码器-解码器框架的解码器模块是一个隐含的语言模型，因此，它可以纳入更多的语言先验因素。出于同样的原因，编码器-解码器框架需要一个更大的训练数据集和更多的词汇量。否则，在阅读训练期间未见过的单词时，该模型可能会退化。相反，CTC对语言模型的依赖性较小，并且具有更好的字符与像素的一致性。因此，它有可能在中文和日文等有大量字符集的语言上表现得更好。这两种方法的主要缺点是它们假定文本是直的，因此不能适应不规则文本。

3.2.3 不规则文本识别的适应性

整理模块是不规则文本识别的一个流行解决方案。Shi等人（2016，2018）提出了一个文本识别系统，该系统结合了空间变换器网络（STN）（Jaderberg等人，2015）和一个基于注意力的序列识别网络。STN-模块用完全连接的层预测文本的边界多边形，以便进行薄板-斜线变换，将输入的不规则文本图像矫正为更规范的形式，即直线文本。矫正被证明是一个成功的策略，并构成了ICDAR 2019 ArT1不规则文本识别竞赛中获胜解决方案的基础（Long等人，2019）。
也有一些基于整顿的识别的改进版本。Zhan和Lu（2019）提出多次进行整顿，以逐步整顿文本。他们还用一个多项式函数取代了文字的边界多边形来表示形状。Yang等人（2019）提出以类似于TextSnake（Long等人，2018）的方式预测局部属性，如文本中心区域内像素的半径和方向值。方向被定义为底层字符框的方向，而不是文本边界多边形。基于这些属性，边界多边形的重建方式是对字符的透视变形进行矫正，而Shi等人和Zhan等人的方法可能只在文本层面上进行矫正，并留下字符的变形。
Yang等人（2017）引入了一个辅助的密集字符检测任务，以鼓励学习对文本模式有利的视觉表征。他们采用对齐损失来规范每个时间步的估计注意力。此外，他们使用坐标图作为第二输入，以加强空间意识。
Cheng等人（2017b）认为，将文本图像编码为大多数方法中实现的一维特征序列是不够的。他们将一个输入图像编码为四个方向的特征序列：水平、反向水平、垂直和反向垂直。一个加权机制被用来结合这四个特征序列。
Liu等人（2018b）提出了一种分层注意力机制（HAM），它由一个循环的RoI-Warp层和一个字符级的注意力层组成。他们采用局部变换来模拟单个字符的失真，从而提高了效率，并能处理单一全局变换难以模拟的不同类型的失真。
Liao等人（2019b）将识别任务投向语义分割，并将每个字符类型视为一个类。该方法对形状不敏感，因此对不规则文本有效，但由于缺乏端到端训练和序列学习，因此容易出现单字符错误，特别是在图像质量较低时。他们也是第一个通过填充和转换测试图像来评估其识别方法的稳健性。
不规则场景文本识别的另一个解决方案是二维注意力（Xu等人，2015），这在Li等人（2019）中得到了验证。与顺序编码器-解码器框架不同，二维注意力模型保持了二维编码特征，并且对所有空间位置都计算了注意力分数。与空间注意类似，Long等人（2020）提出首先检测字符。之后，特征被内插并沿着字符中心线聚集，形成连续的特征帧。
除了上述技术，Qin等人（2019）表明，简单地将特征图从二维扁平化为一维，并将得到的序列特征反馈给基于RNN的注意力编码器-解码器模型，就足以对不规则文本产生最先进的识别结果，这是一个简单而高效的解决方案。
除了量身定做的模型设计，Long等人（2019）还合成了一个弯曲文本数据集，在不牺牲直线文本数据集的情况下，大大提升了真实世界弯曲文本数据集的识别性能。
尽管已经提出了许多优雅而整洁的解决方案，但它们只是基于一个相对较小的数据集CUTE80进行评估和比较，该数据集仅由288个单词样本组成。此外，这些工作中使用的训练数据集只包含了可忽略不计的不规则文本样本的一部分。在更大的数据集和更合适的训练数据集上进行评估可能有助于我们更好地理解这些方法。

3.2.4 其他方法

Jaderberg等人（2014a, b）在图像分类的框架下，通过将图像分类到一个预先定义的词汇集来进行单词识别。该模型由合成图像训练而成，在一些只包含英语单词的基准上取得了最先进的性能。然而，这种方法的应用是相当有限的，因为它不能应用于识别未见过的序列，如电话号码和电子邮件地址。
为了提高困难情况下的性能，如闭塞带来的单字符识别的模糊性，Yu等人（2020）提出了一个基于变换器的语义推理模块，从解码器的粗略的、发音错误的文本输出到精细的、语言校准的输出进行翻译，这与机器翻译的商议网络（Xia等人，2017）有一些相似之处，首先翻译，然后重新编写句子。
尽管到目前为止我们已经看到了进步，但对识别方法的评估却落后于时代。由于大多数检测方法都能检测到定向和不规则的文本，有些甚至还能矫正它们，因此对这类文本的识别似乎是多余的。另一方面，当用稍微不同的边界框进行裁剪时，识别的稳健性很少得到验证。这种稳健性在现实世界的场景中可能更重要。

3.3 端到端系统

在过去，文本检测和识别通常被投射为两个独立的子问题，结合起来从图像中进行文本阅读。最近，许多端到端的文本检测和识别系统（也被称为文本识别系统）已经被提出，从设计可微分计算图的想法中获益良多，如图8所示。作为一种新的趋势，建立这种系统的努力已经获得了相当大的动力。
两步管道，而早期的工作（Wang等人，2011，2012）首先检测输入图像中的单个字符，最近的系统通常在字级或行级检测和识别文本。其中一些系统首先使用文本检测模型生成文本建议，然后用另一个文本识别模型识别它们（Jaderberg等人，2016；Liao等人，2017；Gupta等人，2016）。Jaderberg等人（2016）使用Edge Box提案（Zitnick和Dollár 2014）和经过训练的聚合通道特征检测器（Dollár等人2014）的组合来生成候选字的边界盒。在被送入他们在（Jaderberg等人，2014b）中提出的识别模型之前，提案框被过滤和整顿。Liao等人（2017）结合了基于SSD（Liu等人，2016a）的文本检测器和CRNN（Shi等人，2017b）来发现图像中的文本。
在这些方法中，检测到的字被从图像中裁剪出来，因此，检测和识别是两个独立的步骤。两步法的一个主要缺点是，检测和识别模型之间的误差传播将导致不太令人满意的性能。
两阶段管道最近，有人提出了端到端可训练网络来解决这个问题（Bartz等人，2017；Busta等人，2017；Li等人，2017a；He等人，2018；Liu等人，2018c），其中特征图而不是图像被裁剪并送至识别模块。
在这里插入图片描述

图8 主流端到端框架的说明。 a 在SEE（Bartz等人，2017）中，检测结果被表示为网格矩阵。b 一些方法从特征图中裁剪并将其送入识别分支。 c 当a、b利用基于CTC和基于注意力的识别分支时，也有可能将每个字符作为通用对象来检索并组成文本

Bartz等人（2017）提出了一个解决方案，利用STN（Jaderberg等人，2015）循环关注输入图像中的每个单词，然后分别识别它们。该联合网络以弱监督的方式进行训练，不使用单词的边界框标签。Li等人（2017a）将Faster-RCNN（Ren等人，2015）中的物体分类模块用一个基于编码器-解码器的文本识别模型代替，并组成了他们的文本识别系统。Liu等人（2018c）、Busta等人（2017）和He等人（2018）开发了统一的文本检测和识别系统，其整体架构非常相似，由一个检测分支和一个识别分支组成。Liu等人（2018c）和Busta等人（2017）分别采用EAST（Zhou等人，2017）和YOLOv2（Redmon和Farhadi，2017）作为他们的检测分支，并有一个类似的文本识别分支，其中文本建议通过双线性采样汇集成固定高度的张量，然后通过基于CTC的识别模块转写成字符串。He等人（2018）也采用EAST（Zhou等人，2017）来生成文本建议，他们在基于注意力的识别分支中引入了字符空间信息作为显式监督。Lyu等人（2018a）提出了对Mask R-CNN的修改。对于每个感兴趣的区域，都会产生字符分割图，表明单个字符的存在和位置。一个后处理步骤将这些字符从左到右排序，从而得出最终结果。与上述基于定向边界框进行RoI池的工作相比，Qin等人（2019）提出使用轴对齐的边界框，并用0/1文本度分割掩码对裁剪的特征进行掩码（He等人，2017b）。
一阶段管道除了两阶段的方法，Xing等人（2019）并行预测字符和文本边界框以及字符类型分割图。然后用文本边界框来分组字符框，形成最终的单词转录结果。这是第一个一阶段的方法。

3.4 辅助技术

最近的进展并不限于旨在直接解决任务的检测和识别模型。我们也应该对发挥了重要作用的辅助技术给予肯定。

3.4.1 合成数据

大多数深度学习模型都是数据饥渴型的。只有当有足够的数据时，它们的性能才能得到保证。在文本检测和识别领域，这个问题更加紧迫，因为大多数人类标记的数据集都很小，通常只包含1K-2K左右的数据实例。幸运的是，已经有工作（Jaderberg等人，2014b；Gupta等人，2016；Zhan等人，2018；Liao等人，2019a）产生了相对高质量的数据，并被广泛用于预训练模型以获得更好的性能。
Jaderberg等人（2014b）提议为文本识别生成合成数据。他们的方法在对字体、边框/阴影、颜色和变形进行渲染后，将文本与来自人类标记的数据集的随机裁剪的自然图像相融合。结果表明，仅仅在这些合成数据上进行训练就可以达到最先进的性能，而且合成数据可以作为所有数据集的增强型数据源。
SynthText（Gupta等人，2016）首次提出在自然场景图像中嵌入文本，用于文本检测的训练，而之前的工作大多只在裁剪后的区域打印文本，这些合成数据只用于文本识别。在整个自然图像上打印文本带来了新的挑战，因为它需要保持语义的一致性。为了产生更真实的数据，SynthText利用了深度预测（Liu等人，2015）和语义分割（Arbelaez等人，2011）。语义分割将像素分组为语义集群，每个文本实例被打印在一个语义面上，而不是重叠在多个语义面上。密集的深度图被进一步用来确定文本实例的方向和变形。仅在SynthText上训练的模型在许多文本检测数据集上达到了最先进的水平。它后来也被用于其他工作（Zhou等人，2017；Shi等人，2017a），用于初始预训练。
此外，Zhan等人（2018）将文本合成与其他深度学习技术相结合，以产生更真实的样本。他们引入了选择性的语义分割，使单词实例只出现在合理的物体上，例如桌子或墙壁，而不是某人的脸。在他们的工作中，文字的渲染与图像相适应，以便它们符合艺术风格，不会显得突兀。
SynthText3D（Liao等人，2019a）使用著名的开源游戏引擎Unreal Engine 4（UE4）和UnrealCV（Qiu等人，2017）来合成场景文本图像。文本与场景一起被渲染，因此可以实现不同的照明条件、天气和自然遮挡。然而，SynthText3D只是简单地沿用了SynthText的管道，只利用了游戏引擎提供的地面真实深度和分割图。因此，SynthText3D依赖于手动选择摄像机的视角，这限制了它的可扩展性。此外，所提出的文本区域是通过剪切从分割图中提取的最大矩形边界框来生成的，因此仅限于大型和定义良好的区域的中间部分，这是一个不利的位置偏差。
UnrealText（Long和Yao 2020）是另一项使用游戏引擎来合成场景文本图像的工作。它的特点是在合成过程中与三维世界进行深度交互。提出了一种基于光线投射的算法，以有效地在三维世界中进行导航，并能够自动生成不同的相机视图。文本区域建议模块是基于碰撞检测的，它可以把文本放到整个表面上，从而摆脱了位置偏差。UnrealText实现了明显的速度提升和更好的检测器性能。
文本编辑还值得一提的是最近提出的文本编辑任务（Wu et al. 2019; Yang et al. 2020）。这两项工作都试图替换文本内容，同时保留自然图像中的文本样式，如字符的空间排列、文本字体和颜色。文本编辑本身在使用手机摄像头进行即时翻译等应用中很有用。它在增强现有场景文本图像方面也有很大的潜力，尽管我们还没有看到任何相关的实验结果。

3.4.2 弱监督和半监督

字符盒的引导字符级别的注释更准确、更好。然而，大多数现有的数据集并不提供字符级的注释。由于字符较小且相互接近，字符级注释的成本较高且不方便。在半监督的字符检测方面已经有一些工作。其基本思想是初始化一个字符检测器，并应用规则或阈值来挑选最可靠的预测候选人。然后，这些可靠的候选者被用作额外的监督源来完善字符检测器。两者的目的都是用字符级别的注释来增加现有的数据集。它们的区别如图9所示。
WordSup（Hu等人，2017）首先通过在合成数据集上训练5K次热身迭代来初始化字符检测器。对于每张图片，WordSup都会生成候选字符，然后用词框进行过滤。对于每个词箱中的字符，计算以下分数以选择最可能的字符列表。
在这里插入图片描述

其中，Bchars是所选字符框的联合体；Bword是包围词的边界框；λ1和λ2是协方差矩阵C的第一和第二大特征值，由所选字符框的中心坐标计算得出；w是一个权重标量。直观地讲，第一项是衡量所选的字符如何完整地覆盖字框，而第二项是衡量所选的字符是否位于一条直线上，这是大多数数据集中单词实例的主要特征。
在这里插入图片描述

图9 半监督和弱监督方法的概述。现有的方法在过滤方式上有所不同。 a WeText（Tian等人，2017），主要是通过阈值化置信度，并通过词级注释进行过滤。 b 基于评分的方法，包括WordSup（Hu等人，2017），它假设文本是直线，并使用基于特征值的指标来衡量其直线度。 c 通过使用地面真理词边界框将字符分组为词，并比较字符的数量（Baek等人，2019b；Xing等人，2019）。

WeText（Tian等人，2017）从一个在字符层面上注释的小数据集开始。它遵循两种引导范式：半监督学习和弱监督学习。在半监督设置中，检测到的字符候选者用一个高阈值进行过滤。在弱监督设置中，地面真实的词框被用来掩盖外面的假阳性。以这两种方式检测到的新实例被添加到最初的小数据集中，并重新训练模型。
在Baek等人（2019b）和Xing等人（2019）中，借助于词级注释对字符候选者进行过滤。对于每个单词实例，如果在单词边界框内检测到的字符边界框的数量等于基础真理词的长度，则字符边界框被视为正确。
部分标注为了提高端到端文字发现模型在曲线文字上的识别性能，Qin等人（2019）提出使用现成的直线场景文字发现模型对大量未标注的图像进行标注。这些图像被称为部分标注的图像，因为现成的模型可能会遗漏一些字。事实证明，这些部分标注的直纹文字大大提升了不规则文字的性能。
另一项类似的工作是Sun等人（2019）提出的大型数据集，其中每张图片只标注了一个主导的文字。他们还设计了一种算法来利用这些部分标记的数据，他们声称这些数据的注释成本更低。

4 基准数据集和评估协议

由于前沿算法在现有数据集上取得了更好的性能，研究人员能够处理问题中更具挑战性的方面。新的数据集旨在应对不同的现实世界的挑战，已经和正在被精心制作，进一步有利于检测和识别方法的发展。
在这一部分，我们列出并简要介绍了现有的数据集和相应的评估协议。在适用的情况下，我们还确定了目前广泛使用的数据集的最先进的方法。

表1 场景文本检测和识别的公共数据集
在这里插入图片描述

EN代表英语，CN代表中文。请注意，HUST-TR 400是MSRA-TD 500的一个补充训练数据集。ICDAR 2013是指ICDAR 2013聚焦场景文本竞赛。ICDAR 2015指的是ICDAR 2015偶然性文本竞赛。最后两栏表示数据集是否为检测和识别任务提供注释

4.1 基准数据集

我们收集了现有的数据集，并在表1中总结了它们的统计数据。我们从一些数据集中选择了一些有代表性的图像样本，在图10中展示。为了方便读者，这些数据集的链接也收集在摘要中提到的我们的Github资源库中。在本节中，我们选择了一些有代表性的数据集并讨论了它们的特点。
在这里插入图片描述

图10 选自Chars74K、SVT-P、IIIT5K、MSRA-TD 500、ICDAR 2013、ICDAR 2015、ICDAR 2017 MLT、ICDAR 2017 RCTW和Total-Text的样本

ICDAR 2015的附带文本主要是小的和有方向性的文本。这些图像是由谷歌眼镜拍摄的，没有照顾到图像的质量。图像中很大一部分文字都非常小、模糊、遮挡和多方向，这使得它非常具有挑战性。
ICDAR MLT 2017和2019数据集分别包含9种和10种语言的脚本。它们是迄今为止唯一的多语言数据集。
Total-Text有很大比例的曲线文本，而以前的数据集只包含少数的曲线文本。这些图像主要取自街道上的广告牌，并被注释为顶点数量不等的多边形。
野生中文文本（CTW）数据集（Yuan等人，2018）包含32,285张高分辨率街景图像，在字符层面上进行了注释，包括其基本的字符类型、边界框和详细的属性，如是否使用字画。该数据集是迄今为止最大的一个，也是唯一一个包含详细注释的数据集。然而，它只提供了中文文本的注释，而忽略了其他文字，例如英文。
LSVT（Sun等人，2019）由两个数据集组成。一个是完全标注有单词边界框和单词内容的。另一个虽然大得多，但只标注了主要文本实例的单词内容。作者提议在这种部分标注的数据上工作，这些数据要便宜得多。
IIIT 5K-Word（Mishra等人，2012）是最大的场景文本识别数据集，包含数字和自然场景图像。它在字体、颜色、大小和其他噪音方面的差异使其成为迄今为止最具挑战性的一个。

4.2 评价协议

在这一部分，我们简要地总结了文本检测和识别的评估协议。
作为不同算法性能比较的指标，我们通常指的是它们的精度、召回率和F1分数。为了计算这些性能指标，首先应该将预测的文本实例列表与地面真实标签进行匹配。精度，表示为P，计算为可以与地面真实标签匹配的预测文本实例的比例。召回率，表示为R，是指在预测列表中具有对应关系的地面真实标签的比例。然后，F1分数由F 1 = （2∗P∗R）/（P+R）计算，同时考虑精度和召回率。请注意，预测的实例和地面真实的实例之间的匹配是第一位的。

4.2.1 文本检测

目前主要有两种不同的文本检测协议，即基于IOU的PASCAL评估和基于重叠的DetEval。它们的不同之处在于预测文本实例与地面真相实例的匹配标准。在以下部分，我们使用这些符号。SGT是地面真实边界盒的面积，SP是预测边界盒的面积，SI是预测边界盒和地面真实边界盒的交点的面积，SU是联合的面积。

DetEval DetEval对精度（即SI/SP）和召回率（即SI/SGT）都有限制。只有当两者都大于它们各自的阈值时，它们才会被匹配在一起。
PASCAL（Everingham等人，2015）其基本思想是，如果相交-相合值，即SI/SU，大于指定的阈值，则预测箱和地面真值箱被匹配在一起。
大多数作品都遵循这两个评价协议中的任何一个，但都有小的修改。我们只讨论那些与上述两种协议不同的作品。
ICDAR-2003/2005 匹配分数m的计算方式与IOU类似。它被定义为相交面积与包含两者的最小边界矩形边界盒面积的比率。
ICDAR-2011/2013 ICDAR2003/2005的评估协议的一个主要缺点是，它只考虑一对一的匹配。它没有考虑一对多、多对多和多对一的匹配，这就低估了实际性能。因此，ICDAR-2011/2013遵循Wolf和Jolion（2006）提出的方法，即一对一的匹配被赋予1分，其他两种类型被惩罚为小于1的常数，通常设定为0.8分。
MSRA-TD 500（Tu等人，2012）提出了一个新的旋转边界盒的评估协议，其中预测的边界盒和地面真实边界盒都围绕其中心水平旋转。只有当标准的IOU分数高于阈值，并且原始界线盒的旋转小于预定的值（在实践中是pi/4）时，它们才会被匹配。
TIoU（Liu等人，2019）Tightness-IoU考虑到场景文本识别对检测结果中的缺失部分和多余部分比较敏感。未检索到的区域将导致识别结果中的字符缺失，而多余的区域将导致意外的字符。所提出的指标通过缩小缺失区域的比例和与其他文本重叠的多余区域的比例来惩罚IoU。
现有评价协议的主要缺点是，它们只考虑在测试集上任意选择的置信度阈值下的最佳F1分数。Qin等人（2019）还用平均精度（AP）指标来评估他们的方法，该指标在一般物体检测中被广泛采用。F1分数只是精度-召回曲线上的单点，而AP值考虑的是整个精度-召回曲线。因此，AP是一个更全面的指标，我们敦促该领域的研究人员使用AP而不是单独的F1。

4.2.2 文本识别和端到端系统

在场景文本识别中，预测的文本串与地面实况直接进行比较。性能评估是在字符级别的识别率（即有多少字符被识别）或单词级别（预测的单词是否与地面实况完全相同）。ICDAR还引入了一种基于编辑距离的性能评估。
在端到端评价中，首先以类似于文本检测的方式进行匹配，然后对文本内容进行比较。
最广泛使用的端到端系统数据集是ICDAR 2013（Karatzas等人，2013）和ICDAR 2015（Karatzas等人，2015）。对这两个数据集的评估是在两种不同的设置下进行的2，即单词聚焦设置和端到端设置。在单词定点设置下，性能评估只关注场景图像中出现在预先指定的词汇表中的文本实例，而其他文本实例被忽略。相反，在End-to-End下，所有出现在场景图像中的文本实例都被包括在内。三个不同的词汇表被提供给候选转录。它们包括强烈的语境化、弱语境化和通用的。表8总结了这三种列表的情况。请注意，在端到端下，这些词汇表仍然可以作为参考。

表2 对ICDAR 2013的检测
在这里插入图片描述

在这里插入图片描述

最近的方法在几个广泛采用的基准数据集上的评估结果总结在以下表格中。表2是对ICDAR 2013的检测，表4是对ICDAR 2015 Incidental Text的检测，表3是对ICDAR 2017 MLT的检测，表5是对Total-Text的检测和端到端单词发现，表6是对CTW1500的检测，表7是对MSRA-TD 500的检测，表9是对几个数据集的识别，表10是对ICDAR 2013和ICDAR 2015的端到端文本发现。请注意，如果报告了单尺度性能，我们就不报告多尺度条件下的性能。我们用∗来表示只报告多尺度性能的方法。由于一些工作中使用了不同的骨干特征提取器，除非没有提供，否则我们只报告基于ResNet-50的性能。为了更好地说明问题，我们在图11中绘制了检测性能的最新进展，并在图12中绘制了识别性能。
注意，目前对场景文本识别的评估可能存在问题。根据Baek等人（2019a）的研究，大多数研究人员在参考同一数据集时，实际上使用的是不同的子集，导致性能上的差异。此外，Long和Yao（2020）进一步指出，广泛采用的基准数据集中有一半的注释不完善，例如忽略了大小写敏感性和标点符号，并为这些数据集提供了新的注释。尽管大多数论文都声称他们的模型以区分大小写的方式进行识别训练，也包括标点符号，但在评估过程中，他们可能只将输出限制在数字和不区分大小写的字符。
在这里插入图片描述

五、应用

文字的检测和识别–人类文明的视觉和物理载体–使得视觉和对其内容的理解之间有了进一步的联系。除了我们在本文开头提到的应用之外，在各个行业和我们的日常生活中也有许多具体的应用场景。在这一部分，我们列出并分析最突出的那些已经或将要产生重大影响的应用，提高我们的生产力和生活质量。
自动数据输入除了现有文件的电子档案，OCR还可以通过自动数据输入的形式提高我们的生产力。有些行业涉及到耗时的数据输入，例如快递行业中客户写的快递单，以及金融和保险行业中手写的信息表。应用OCR技术可以加速数据输入过程，并保护客户隐私。一些公司已经在使用这些技术，例如SF-Express3。另一个潜在的应用是做笔记，例如NEBO4，这是一个在iPad等平板电脑上的笔记软件，可以在用户写下笔记时进行即时转写。
身份认证自动身份认证是OCR可以充分发挥作用的另一个领域。在互联网金融和海关等领域，用户/乘客被要求提供身份（ID）信息，如身份证和护照。对所提供的文件进行自动识别和分析，就需要OCR读取和提取文本内容，并能自动化和大大加快此类流程。有一些公司已经开始研究基于人脸和身份证的识别，例如MEGVII（Face++）5。
增强的计算机视觉由于文本是理解场景的一个重要元素，OCR可以在许多方面协助计算机视觉。在自动驾驶汽车的场景中，文本嵌入的面板承载着重要的信息，如地理定位、当前的交通状况、导航等。已经有一些关于自主车辆的文本检测和识别的工作（Mammeri等人，2014，2016）。迄今为止最大的数据集CTW（Yuan等人，2018）也格外强调交通标志。另一个例子是即时翻译，OCR与翻译模型相结合。当人们旅行或阅读用外语写成的文件时，这非常有帮助并节省时间。谷歌的翻译应用程序6可以进行这种即时翻译。一个类似的应用是配备OCR的即时文本到语音软件，它可以帮助那些有视觉障碍和文盲的人7。
智能内容分析 OCR还允许行业进行更多的智能分析，主要针对视频共享网站和电子商务等平台。文本可以从图像和字幕以及实时评论字幕（一种由用户添加的浮动评论，例如Bilibili8和Niconico9的评论）中提取。一方面，这种提取的文本可以用于自动内容标签和推荐系统。它们还可以用来进行用户情绪分析，例如视频的哪一部分最吸引用户。另一方面，网站管理员可以对不适当的和非法的内容，如恐怖主义宣传，实施监督和过滤。

6 结论和讨论

6.1 现状

算法在过去的几年里，文本检测和识别的算法有了长足的发展，这主要是由于深度学习的热潮。深度学习模型已经取代了对模式和特征的手动搜索和设计。随着模型能力的提高，研究的注意力被吸引到了定向和弯曲文本检测等挑战上，并取得了很大的进展。

在这里插入图片描述

表10 在ICDAR 2015和ICDAR 2013上的端到端和单词发现的性能
在这里插入图片描述

应用除了努力为各种图像提供通用的解决方案外，这些算法还可以被训练并适用于更具体的场景，例如银行卡、身份证和驾驶执照。一些公司已经在提供这种特定场景的API，包括百度公司、腾讯公司和MEGVII公司。最近快速有效的方法的发展（Ren等人，2015；Zhou等人，2017）也使得大规模系统的部署成为可能（Borisyuk等人，2018）。包括谷歌公司和亚马逊公司在内的公司也在提供文本提取API。
在这里插入图片描述

图11 过去几年中场景文本检测的进展（以F1分数评估）。
在这里插入图片描述

图12 过去几年中场景文本识别的进展（以单词级别的准确度来评估）

6.2 挑战和未来趋势

我们通过后视镜看现在。我们向未来迈进（Liu 1975）。我们列出并讨论挑战，并分析在场景文本检测和识别领域的下一个有价值的研究方向是什么。世界上有1000多种语言。10 然而，目前大多数算法和数据集主要集中在英语文本上。虽然英语有一个相当小的字母表，但其他语言，如中文和日文有一个大得多的字母表，有数万个符号。基于RNN的识别器可能会受到这种大型符号集的影响。此外，一些语言有更复杂的外观，因此它们对图像质量等条件更加敏感。研究人员应首先验证目前的算法对其他语言的文本以及进一步对混合文本的通用性如何。针对多种类型语言的统一检测和识别系统具有重要的学术价值和应用前景。一个可行的解决方案可能是探索能够捕捉不同语言的文本实例的共同模式的组合式表示法，并用不同语言的文本实例来训练检测和识别模型，这些文本实例是由文本合成引擎生成的。
模型的鲁棒性虽然目前的文本识别器已被证明能够很好地概括不同场景的文本数据集，甚至只使用合成数据，但最近的工作（Liao等人2019b）表明，对有缺陷的检测的鲁棒性不是一个可以忽视的问题。实际上，对于文本检测模型来说，这种预测的不稳定性也已经被观察到。这类现象背后的原因还不清楚。一种猜想是，模型的鲁棒性与深度神经网络的内部运行机制有关。
泛化除了TextSnake（Long等人，2018），很少有检测算法考虑到跨数据集的泛化能力问题，即在一个数据集上训练，在另一个数据集上测试。泛化能力很重要，因为一些应用场景需要对不同环境的适应性。例如，自动驾驶汽车中的即时翻译和OCR应该能够在不同的情况下稳定地执行：具有大文本实例的放大图像、远处和小字、模糊的字、不同的语言和形状。简单地将所有现有的数据集汇集在一起是否足够，特别是在目标领域完全未知的情况下，这一点仍未得到验证。
评估现有的检测评估指标源于一般物体检测的指标。基于IoU得分或像素级精度和召回率的匹配忽略了一个事实，即缺失的部分和多余的背景可能会损害后续识别程序的性能。对于每个文本实例，像素级精度和召回率都是很好的衡量标准。然而，它们的分数一旦与地面真实相匹配，就会被分配为1.0，因此不会反映在最终的数据集级分数中。一个现成的替代方法是简单地将DetEval下的实例级分数相加，而不是先将它们赋值为1.0。
合成数据虽然在合成数据集上训练识别器已经成为一种惯例，而且结果很好，但是检测器仍然严重依赖真实数据集。合成不同的、真实的图像来训练检测器仍然是一个挑战。合成数据的潜在好处还没有被充分发掘，如泛化能力。使用3D引擎和模型的合成可以模拟不同的条件，如照明和遮挡，因此值得进一步开发。
效率基于深度学习的方法的另一个缺点在于其效率。目前的大多数系统在部署在没有GPU的计算机或移动设备上时不能实时运行。除了在其他任务中被证明有效的模型压缩和轻量级模型外，研究如何为文本相关任务定制加速机制也很有价值。
更大、更好的数据集大多数被广泛采用的数据集的规模都很小（1千张图片）。值得研究的是，从目前的算法中获得的改进是否可以扩大，或者它们只是更好的正则化的偶然结果。此外，大多数数据集只标注了边界框和文本。对不同属性的详细标注（Yuan等人，2018），如字画和闭塞，可能会给研究人员带来相关的指导。最后，以现实世界的挑战为特征的数据集对于推进研究进展也很重要，比如产品上密集的文本。另一个相关的问题是，大多数现有的数据集都没有验证集。目前报告的评估结果极有可能是由于在测试集上的过度拟合而导致的向上的偏差。我们建议研究人员应该关注大型数据集，如ICDAR MLT 2017、ICDAR MLT 2019、ICDAR ArT 2019和COCO-Text。

参考文献

创作不易，喜欢的话加个关注点个赞，❤谢谢谢谢❤

快乐的小小程序猿

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文翻译-Scene Text Detection and Recognition: The Deep Learning Era

论文翻译-Scene Text Detection and Recognition: The Deep Learning Era原文地址：https://arxiv.org/pdf/1811.04256v5.pdf【推荐】相关阅读资料下载：链接：https://pan.baidu.com/s/1YZJoLf056orlmiuQ3u6IuA提取码：plny【注】：翻译仅供参考，准确含义和表达参考英文原文场景文本检测和识别：深度学习时代的到来摘要随着深度学习的兴起和发展，计算机视觉已经发
复制链接

扫一扫