论文翻译-MOST: A Multi-Oriented Scene Text Detector with Localization Refinement

快乐的小小程序猿

于 2023-05-24 16:56:02 发布

阅读量803

点赞数

文章标签：深度学习场景文本检测论文翻译

本文链接：https://blog.csdn.net/xu_benjamin/article/details/120045502

版权

文章提出了一种名为MOST的场景文本检测算法，该算法包括文本特征对齐模块（TFAM）以动态调整特征感受野，位置感知非最大抑制（PA-NMS）以选择性聚焦可靠检测，以及实例明智的IoU损失以平衡不同尺度文本实例的训练。这些策略显著提高了文本定位质量，尤其在处理极端长宽比文本实例时。实验显示，MOST在多个基准数据集上实现了最先进的性能，同时保持了较快的运行速度。

摘要由CSDN通过智能技术生成

论文翻译-MOST: A Multi-Oriented Scene Text Detector with Localization Refinement

原文地址：https://arxiv.org/pdf/2104.01070.pdf
CVPR 2021
【推荐】相关阅读资料下载：
链接：https://pan.baidu.com/s/1eExW1z7XniKxEQO_iyyxRw
提取码：2a8s
【注】：翻译仅供参考，准确含义和表达参考英文原文

MOST：一个多方位的场景文本检测器，带有本地化的细化功能

摘要

在过去的几年里，场景文本检测领域进展迅速，现代文本检测器能够在各种具有挑战性的场景中猎取文本。然而，在处理极端长宽比和不同尺度的文本实例时，它们可能仍然不足。为了解决这些困难，我们在本文中提出了一种新的场景文本检测算法，该算法提出了一套策略来显著提高文本定位的质量。具体来说，我们提出了一个文本特征对齐模块（TFAM）来动态调整基于初始原始检测的特征感受野；设计了一个位置感知非最大抑制（PA-NMS）模块来有选择地集中于可靠的原始检测并排除不可靠的检测；此外，我们提出了一个实例，我们还提出了一种用于平衡训练的Instance-wise IoU loss，以处理不同尺度的文本实例。一项广泛的消融研究证明了所提出的策略的有效性和优越性。由此产生的文本检测系统，将所提出的策略与领先的场景文本检测器EAST相结合，在各种文本检测的标准基准上取得了最先进或有竞争力的性能同时保持快速的运行速度。

1. 介绍

最近，场景文本阅读已成为计算机视觉界一个活跃的再搜索话题，因为它在广泛的应用中具有重要价值，如视频索引、广告牌阅读[25]和即时翻译，这需要从自然图像中自动提取文本信息。
在深度神经网络和海量数据的驱动下，场景文本阅读的技术和系统在过去几年里有了巨大的发展，并提出了许多鼓舞人心的想法[20]。然而，考虑到现实世界的挑战，如不同的形状、任意的方向、各种尺度以及复杂的光照，严重的模糊和透视失真，目前的文本阅读方法仍有很大的改进空间。
特别是关于场景文本检测，即我们在这项工作中所关注的主题，可以看到现有算法的明显弱点。例如，EAST[45]，一个有代表性的单阶段场景文本检测
在这里插入图片描述

图1. 说明拟议的MOST在处理长文本实例方面的优越性。(a)和(b)来自EAST[45]；©和(d)来自MOST。(a)和©显示了在文本区域内3个不同位置预测的原始检测框。采样点与相应的检测盒有相同的颜色。(b)和(d)是最终的检测结果。

器，被证明在检测具有极端长宽比的文本实例方面表现不佳（见图1（a）和（b））。主要有两个原因。(1) 该网络的感受野有限，因此无法利用足够的信息来精确预测长文本实例的空间范围；(2) 在EAST的非最大抑制（NMS）程序中，检测被合并，使用它们的文本/非文本分类分数作为权重，这忽略了网络的有限感受野所造成的质量差异，并导致有偏见的几何图形。
为了解决这些问题，我们提出了一个具有定位细化功能的多方位场景文本检测器（MOST）。定位细化部分包括一个文本特征对齐模块（TFAM）和一个位置感知非最大抑制模块（PA-NMS）。前者将图像特征与粗略的检测结果对齐，可以动态地调整定位预测层的感受野。另一方面，后者根据预测的位置自适应地合并原始检测结果，以专注于准确的预测而放弃不准确的预测。此外，为了提高对小文本实例的检测，我们设计了一个实例明智的IoU损失，它使损失函数中每个实例的权重保持不变。
实验表明，所提出的三种策略可以有效地提高检测性能。具体来说，它们在MLT17验证集上为不同的IoU标准带来了4.0%和9.5%的性能提升，在MTWI测试数据集上有5.1%的提升。此外，我们提出的文本检测器保持了一个简单的管道，运行速度相当快。
本文的贡献有四个方面：

我们提出了TFAM，它根据粗略的检测结果动态地调整感受野。
提出的PA-NMS通过合并基于位置的可靠预测来进一步细化检测。
我们引入了Instance-wise IoU loss，对不同规模的文本实例进行平衡训练。
我们提出的MOST实现了最先进或有竞争力的性能和快速的推理速度。

2. 相关工作

根据不同的管道，基于深度学习的现代文本检测器可以大致分为两类：自下而上的方法和自上而下的方法。
自下而上的方法认为场景文本检测是一个两步的过程。(1) 检测基本元素；(2) 聚合这些元素以产生检测结果。SegLink[26]及其变体SegLink++[29]将文本实例的小段作为基本元素，并将它们连接起来形成边界框。TextSnake[21]进一步改进了自下而上的方法，将沿文本中心线的一组圆板作为基本元素，解决了任意形状的文本检测问题。CRAFT[1]则将字符边界框视为基本元素，并使用亲和力分数图来聚合检测到的字符。PSENet[31]和PAN[32]遵循分割管道，将图像中的每个像素定义为基本元素，并通过广度优先搜索进行聚合。上述方法在一些基准上取得了显著的性能。然而，它们中的大多数都有一个复杂的后处理算法来聚合基本元素，这可能会大大降低它们的效率和推理速度。此外，一个不那么强大的基本元素聚合算法也可能极大地影响准确性，因为如果聚合算法没有达到预期的效果，一个文本实例可能会被切割成几个片段。
自上而下的方法通常遵循一般的对象检测管道，直接输出词/行级别的检测结果。这些方法可以进一步表述为两个子类别，即单阶段文本检测器和双阶段文本检测器。一阶段文本检测器如TextBoxes[15]、EAST[45]、TextBoxes++[14]和RRD[17]直接将文本边界框的参数回归到整个特征图上，并采用NMS来产生最终结果。相反，像Mask TextSpotter系列[22, 12, 13]这样的两阶段文本检测器，通常遵循MaskR-CNN[7]式的框架，使用区域提议网络工作（RPN）首先产生文本提议，然后根据这些产生的文本提议回归相应的参数。这些方法通常有一个相对简单的后处理算法，可以避免复杂的聚合程序。
与LOMO的比较 为了提高长文本实例的检测，LOMO[42]提出了一个迭代细化模块（IRM），通过迭代细化来感知整个长文本。它根据初步建议多次提取RoI特征，形成一个多阶段的检测器。与LOMO中的RoI变换[28]不同，我们提出的TFAM通过定制的可变形卷积算子[3]进行定位细化。这实现了更高的精度和更高的效率（见第4节中的比较）。
在这里插入图片描述

图2. 我们网络的总体结构，由ResNet-50-FPN主干、文本/非文本分类头、定位分支和位置敏感地图预测头组成。定位分支由一个粗略的定位头、一个文本特征对齐模块（TFAM）和一个精细的定位头组成。 PA-NMS表示位置感知非最大限度的抑制。

3. 方法

我们提出的MOST的管道显示在图2中。它由一个具有特征金字塔结构的ResNet-50骨干网[18]、一个文本/非文本分类头、一个位置敏感的地图预测头、一个定位分支和一个位置感知非最大抑制（PA-NMS）模块组成。定位分支包含一个粗略的定位头，一个文本特征对齐模块（TFAM），以及一个精炼的定位头。

3.1. 网络设计

所有预测头（不包括精确定位头）的输入是来自特征金字塔骨架的融合特征图，其形状为H/4×W/4 × C，其中H和W是输入图像的高度和宽度，C表示通道的数量，设置为256。在下面的描述中，Conv、BN、ReLU和Sigmoid表示卷积、批量归一化[10]、整顿线性单元[5]和Sigmoid。
文本/非文本分类头 首先，输入的特征图被送入Conv (3×3)-BN-ReLU层，将通道数减少到64。然后，Conv（1×1）-Sigmoid 层来生成分数图，其形状为H/4×W/4 × 1，数值范围为（0，1）。
位置敏感图预测头 位置敏感图预测头与网络结构中的文本/非文本分类头相似，但输出形状不同。位置敏感图的形状为H/4×W/4 × 4，范围为（0，1）。四个通道分别按左、右、上、下的顺序表示位置敏感图，如图5所示。
本地化分支 本地化分支包括一个粗略的定位头，一个文本特征对齐模块（TFAM）和一个完善的检测头。首先，由粗定位头预测粗探测。然后，TFAM根据粗略的检测动态地调整文本特征的感受野，以产生对齐的特征，将其输入到精炼的定位头中以预测最终的检测。
粗定位头和细定位头具有相同的结构。它们由Conv（3×3）-BN-Relu层（将通道数减少到64）和Conv（1×1）层组成。输出的几何图的形状为H/4×W/4 × 5。这五个通道分别表示到文本四边形四个边的距离和文本四边形的旋转角度。

3.2 文本特征对齐模块

由于CNN的感受野有限，因此像EAST [45]这样的自上而下的单阶段文本检测器很难准确地定位文本边界，尤其是对于具有大比例或极高宽高比的文本实例而言。 LOMO [42]提出通过使用ROI变换[28]逐步将图像特征与先前的检测逐步对齐来逐步完善定位。但是，这样的多级网络将带来大量的额外计算，尤其是在文本实例的数量很大时。
为了在保持快速运行速度的同时实现更好的特征对齐，我们提出了文本特征对齐模块（TFAM）。 TFAM的示意图如图3所示。首先，将粗略的检测结果用于生成采样点。然后，将采样点应用于可变形卷积算子[3]，以获得用于精确定位的对齐特征。对齐特征y的位置p_0可以通过以下公式计算：
在这里插入图片描述
其中x是输入特征图，w是可变形卷积的权重； R ̂代表规则的采样网格，而p_n枚举R ̂中的位置。添加了一个额外的偏移量，称为∆p_n，与采样点选择策略有关。
基于特征的采样 是一种应用于原始可变形卷积层的采样点选择策略，其中∆p_n是通过额外的卷积层从前面的特征图中预测出来的，由以下公式给出:
在这里插入图片描述
这种抽样方法的图示见图3 (a).
基于定位的采样 与原始可变形卷积层中基于特征的采样不同，我们的基于定位的采样使用粗略定位头预测的粗略检测结果来分配采样点。∆p_n的计算方法是:

其中(d_c0 ) ̂表示p_0处的粗检测盒，Γ函数计算出使采样点在粗检测盒中均匀分布所需的偏移量，如图3(b)所示。
在这里插入图片描述
图3. TFAM的描述。在（a）（b）中，紫色的点代表常规采样网格，黄色的点代表变形的采样位置。额外的偏移量(∆p_n)由浅绿色箭头表示。

在这里插入图片描述
图4. 位置感知合并的可视化。（a）中的得分图用于确定肯定框。（b）和（c）分别以左和右顺序显示位置敏感图

通过采用基于定位的取样方法，TFAM可以产生与粗略检测相一致的特征，这些特征可以进一步被精化定位头使用，以产生比粗略检测更好地包围文本区域的精化检测。关于TFAM采样方法的消融研究将在第4.3节介绍。
TFAM可以生成具有自适应感受野的特征，其范围由粗略检测的形状和尺度决定。整个特征排列过程由一个量身定做的可变形卷积层完成，这使得它快速而容易实现。

3.3 位置感知非极大值抑制

EAST中的NMS EAST[45]提出了局部感知的NMS，将网络预测的所有阳性检测框合并，得到最终结果。与标准NMS相比，局部感知NMS可以产生更稳定的结果，同时花费更少的时间，其工作过程可以分为两个步骤：加权合并和标准NMS。在加权合并的过程中，检测结果被逐行合并，当前遇到的检测盒与最后合并的检测盒反复合并。给定两个检测盒p和q及其相应的文本/非文本分类分数S§和S(q)，加权合并可以表述为：(4)
在这里插入图片描述
其中m_i代表合并后的盒子m的第i个坐标和S(m)代表合并后的盒子的得分。
建议的位置感知的NMS 对于文本区域内的所有阳性点，一个点的位置会影响其对检测框的预测。如图4（a）所示。点离文本边界越近，它就越有可能预测出文本边界的准确位置。因此，如果考虑到检测框的位置，就可以合并出更有说服力和更准确的数值（与边界的距离）。
我们提出了位置感知的NMS，如图4所示，在合并过程中，根据方框的位置，保留检测到的方框的准确部分，同时删除不准确的部分。这些位置是由位置敏感图[2]给出的，它反映了文本实例中的位置。图5©-(f)分别显示了按左、右、上、下顺序排列的位置敏感图，这些位置敏感图可以作为盒子合并过程中预测文本实例的左、右、上、下边界的权重。给定两个盒子p和q（索引1、2、3、4分别对应盒子的左上角、右上角、右下角和左下角的顶点）和左、右、上、下顺序的位置敏感图，分别称为L、R、T和B，位置感知的盒子合并的功能可以表述为：(5)
在这里插入图片描述
其中m是合并后的盒子；m_i (x)和m_k (y)是盒子盒子m（同样，p和q也是如此）的第i个和第k个顶点的x和y坐标。L§表示左边敏感地图在盒子p的相应位置上的值（对R、T和B也是如此，对q和m也是如此）。
正如公式(5)所建议的，PA-NMS使用相应的位置感知得分的值，而不是文本/非文本分类得分，作为位置感知合并过程中框的权重，这可以帮助精确定位文字边界。

3.4. 标签生成

我们遵循EAST[45]的相同过程来生成分数图和几何图。本节说明了生成位置敏感地图的过程。
在这里插入图片描述
图5. 位置敏感地图的GT的可视化。(a) 输入图像；(b)得分图；©、(d)、(e)和(f)分别是位置敏感图的分别为左、右、上和下的位置敏感图。

对于每个文本实例，在文本区域内某一正位置i的位置敏感地图的值可以被表述为：（6）
在这里插入图片描述
其中f代表文本区域的四个面之一，F是其对应的位置敏感图，例如，右侧对应的是右敏感图。P代表文本实例中所有正面样本的集合。Dist(i,f)计算点i到侧面f的距离。d_f是距离的阈值：如果Dist(i, f )> d_f，则点i在相应的位置敏感地图中的值变为0。在我们的实验中，α被设定为0.75。图5显示了位置敏感地图的可视化情况。

3.5. Instance-wise IoU loss

EAST[45]中采用了IoU损失[41]来计算几何图形预测的回归损失。IoU 损失对每个阳性样本来说都是尺度不变的。然而，正如如图5(b)所示，大文本区域包含的阳性样本远远多于小文本区域。正样本的数量远远多于小文本区域，这使得这使得回归损失偏向于大而长的文本实例。IoU损失被表述为：
在这里插入图片描述
其中(d_i ) ̂和d_i^*分别代表第i个样本的几何预测和其对应的地面实况。Ω代表正样本的集合，|Ω|是Ω中的样本数。

为了对不同规模的文本实例进行更均衡的训练，我们提出了实例明智的IoU损失，即：
在这里插入图片描述
其中(d_jk ) ̂和d_jk^* 表示第j个文本实例中的第k个样本的几何学预测 k的样本和其对应的地面实况。S_j代表属于第j个文本实例的正样本集，N_t是文本实例的总数。
正如公式（8）所建议的，每个阳性样本的损失被它所属的文本实例中的阳性样本数量归一化。因此，每一个文本实例，无论它有多少个阳性样本，都可以对总的实例范围内的IoU损失做出同等贡献。

3.6. 优化

我们网络的损失可以表述为：
在这里插入图片描述
其中L_s， L_gc， L_gr和L_p分别代表分数图、粗定位头预测的几何图、精定位头预测的几何图和位置敏感图的损失。 λ_gc, λ_gr和λ_p平衡了四种损失的重要性。在我们的实验中都被设置为1。
请注意，我们只计算L_gc， L_gr和L_p，对一组的阳性样本，称为Ω。
分数图的损失 我们使用二元交叉熵损失作为分数图预测的对象函数，称为L_s。L_s采用OHEM[27]，其中负数和正数的比例设定为3：1。
几何图的损失 旋转角的损失表述为：
在这里插入图片描述
其中，(θ_i ) ̂和θ_i^*分别代表第i个样本在Ω中的的旋转角度预测和相应的地面真相。
L_gc和L_gr共享L_g的相同形式，它是L_iou、L_(ins-iou)和L_θ的组合:

L_iou和L_(ins-iou)的损失函数分别在公式（7）和公式（8）中给出。λ_i和λ_θ平衡这三种损失。在我们的实验中，它们分别被设定为1和20。

位置敏感地图的损失 平滑-L1损失[4]在计算L_p时采用:
在这里插入图片描述
其中，(Ψ_i ) ̂和Ψ_i^*分别代表对Ω中第i个样本的位置敏感图Ψ的预测和相应的地面真实。

4. 实验

首先，我们简要介绍我们实验中使用的所有数据集。然后，给出我们方法的实施细节。第三，我们展示了对所提贡献的消融研究。最后，我们在四个基准数据集上与最先进的方法做了比较。
请注意，我们实验中提到的 "基线 "是指改编自EAST[45]的模型。我们的网络只是通过添加提议的TAFM、PA-NMS和实例明智的IoU损失来建立。

4.1. 数据集

SynthText是一个包含800k图像的合成数据集，由一个合成图像生成引擎生成[6]。这个数据集只用于预训练。
**ICDAR 2017 MLT（MLT17）**是ICDAR 2017关于多语言场景文本检测的竞赛中提出的数据集[24]。它包含7200张图片用于训练，1800张图片用于验证，9000
张图片用于测试。这个数据集的文本实例来自9种不同的语言。
MTWI是ICPR 2018竞赛中提出的关于多类型网络图像的稳健阅读的数据集[9]，包括10000张训练图像和10000张测试图像。该数据集中的文本主要是中文和英文。所有的文本实例都在行一级进行了注释。
**ICDAR 2015（IC15）**是为ICDAR 2015鲁棒阅读竞赛而提出的[11]。该数据集用词级四边形注释，包括1000张训练图像和500张测试图像。
MSRA-TD500[40]是一个多语言数据集，包含英文和中文文本。该数据集的图像是由袖珍相机从室内和室外场景拍摄的。它被分为300张训练图像和200张测试图像。按照以前的工作[45][21][23]，400张训练图像训练图像来自HUST-TR400[39]。

4.2. 实现细节

我们在模型中采用具有特征金字塔结构[18]的ResNet-50 [8]骨干。在预训练阶段，我们使用Adam优化器将SynthText [6]上的模型训练2个时期，该模型的学习速率设置为10−4。 SGD优化器用于对每个数据集的训练集进行预训练的模型进行微调。按照[44]，我们使用“多元”学习率策略。初始学习率设置为0.005，功效设置为0.9。 MLT17，MTWI，IC15，MSRA-TD500的微调时期数分别设置为300、300、1200和1200。对于所有数据集，训练批处理大小为16。对于数据扩充，将随机裁剪文本区域并将其大小调整为640×640。此外，还采用了几种常见的数据扩充技术（例如，翻转，旋转和颜色更改）进行训练。该模型在PyTorch中实现，并使用2个Tesla V100 GPU进行了训练。

4.3. 消融研究

进行消融研究以证明每个模块的有效性。由于MLT17 [24]和MTWI [9]中有足够的训练数据，因此我们直接在模型上训练模型，而无需在SynthText [6]上进行预训练。
TFAM的采样方法如3.2节所述，针对TFAM提出了两种采样方法：基于特征的采样（FB）和基于局部化的采样（LB）。此外，我们还尝试将它们组合在一起，称为“ Combine”（CB）。 CB的一半采样点是根据FB规则分配的，而另一半则是LB规则分配的。表1清楚地表明，这两种采样方法均在f度量方面带来了超过基线的性能改善，并且LB获得了更大的性能提升。两种采样方法（CB）的组合达到了最佳效果，使用IoU@0.5和IoU@0.7分别比基准高出2.4％和7.4％。因此，在接下来的所有实验中，我们都采用“组合”抽样方法。
在这里插入图片描述

表1.采样方法的消融研究。在MLT17的验证集上评估结果[24]。 “ FB”，“ LB”和“ CB”是基于特征，基于本地化和组合的缩写。

建议的策略 关于建议的策略的消融研究的结果在表2中给出。
(1) TFAM在MTWI上的f-measure比基线明显提高4.2%。此外，在IoU@0.7 的协议下，在MLT17的验证集上f-measure的提高是7.4%。这些性能的提高表明，TFAM可以有效地处理长宽比变化较大的文本实例，受益于改进的感受野。
(2) Instance-wise IoU Loss平衡了不同尺度的文本实例的训练。在MLT17的验证集上，在IoU@0.5 和IoU@0.7 的协议下，它导致f-measure的性能分别比基线提高1.0%和2.9%。当TFAM也被使用时，Instance-wise IoU损失仍然可以分别提高1.1%和1.0%的性能。在MTWI上也可以观察到类似的改进。
(3) PA-NMS将位置信息纳入到重叠框的合并中，这改善了文本边界的定位。它在MTWI上将基线提高了2.7%的f-measure。通过将PA-NMS添加到同时配备TFAM和Instance-wise IoU loss的模型中，可以实现0.4%的额外收益。在MLT17的验证集上也取得了类似的性能增益。
在所有提出的策略下，我们的模型在IoU@0.5 和IoU@0.7 的协议下，在MLT17的验证集上的f-measure可以比基线明显提高4.0%和9.5%。此外，在MTWI的测试集上，我们的模型比基线可以实现5.1%的性能提升。一些可视化的结果显示在图6。

4.4. 多方位的文本检测

我们在IC15[11]上评估了我们的方法，并将其与其他最先进的方法进行了比较。在推理过程中，我们将图像的短边设置为1152，同时保持其长宽比。如表3所示，我们提出的方法与GNNets[36]的f-measure相当（88.2% vs 88.5%）。而推理速度则快得多（10.0FPS vs 2.1FPS）。如表4所示，我们提出的方法可以进一步提高在一个更严格的阈值下，即IOU@0.7。在这种情况下，它以更大的优势胜过以前的方法。(75.9% vs 73.3%)。
在这里插入图片描述
图6. 来自4个基准的可视化结果。上一行和下一行显示了基线和MOST预测的结果。依次显示。绿色方框表示准确的检测，而红色方框表示不准确的检测。

表2. 对三种拟议策略的消融研究。TFAM、Ins-IoU和PA-NMS分别表示文本特征对齐模块、实例 woU损失和位置感知的NMS。

4.5. 多语言和长文本检测

为了评估我们的方法在检测多语言和长文本方面的性能，我们将我们的模型与其他最先进的方法在MSRA-TD500[40]、MLT17[24]和MTWI[9]上进行比较。
MSRA-TD500 [40] 我们在MSRA-TD500上进行实验，以证明我们检测长文本实例的方法的稳健性。在推理过程中，图像的长边被设置为640。如表5所示，我们的方法达到了86.4%的f-measure，在f-measure上比以前的最先进的方法高出1.5%（86.4% vs 84.9%）。与DRRG[43]等使用外部MLT17数据进行预训练的方法相比，我们的方法仍然可以达到更高的f-measure（86.4% vs 85.1%），同时运行速度惊人（51.8FPS）。此外，如表4所示，它比其他方法至少多出3.6%。(77.9% vs 74.3%)，在更严格的IoU约束下。

表3. IC15[11]的定量结果。IoU@0.5。†表示使用deformable-ResNet-50作为骨干。和*表示使用外部MLT17数据进行预训练。
在这里插入图片描述

表4. 对IC15[11]和MSRA-TD500[40]的定量结果在IoU@0.7 的协议下。PSE代表PSENet-1s。* 表示使用开放源码库中发布的模型。
在这里插入图片描述

MLT17[24]的结果列于表6. 在测试过程中，我们将图像的两边设置在（640，1920）的范围内，同时保持其长宽比。如表中所示，MOST达到了76.7%的f-measure，超过了所有其他的同行，特别是在召回率方面有很大的优势，至少有1.9%（72.0% vs 70.1%）与单阶段方法相比，我们的方法在很大程度上超过了它们（76.7% vs 74.7%）。同时运行速度也很有竞争力（10.1FPS）。此外。即使与复杂的两阶段方法相比，如 BDN[19]相比，我们的方法仍然可以通过更简单的管道达到更高的f-measure。

表5. 在IoU@0.5 协议下对MSRA-TD500[40]的定量结果。*表示使用外部MLT17数据进行预训练，†表示使用deformable-ResNet-50作为骨干。
在这里插入图片描述
表6. MLT17测试集上的定量结果[24]，*表示报告的FPS来自CRAFT [1]，而†表示使用disableable-ResNet-50作为主干。

MTWI [9] 为了证明所提出的方法的泛化能力，我们在MTWI数据集上测试了我们的模型，该数据集包含从网络图像中获得的多语言文本实例。结果列于表7。请注意，我们在一些没有在论文中提供官方MTWI结果的方法1上重现了结果，这些方法被标记为†。在测试过程中，我们将图像的两边设置在（640，1280）的范围内，同时保持其长宽比。我们的方法比所有的同类方法至少高出1.2%（74.7% vs 73.5%），同时取得了有竞争力的推理速度（23.5FPS）。在MTWI上的结果证明了我们方法的通用能力，即所提出的模块可以提高在自然场景图像和网络图像中检测文本的性能。

表7. MTWI的定量结果[9]。请注意，原始PAN使用ResNet-18主干。我们使用ResNet-50主干网重新实现它，以进行公平的比较。 *表示从SegLink ++ [29]获得的结果，†表示从开放源代码存储库复制。
在这里插入图片描述

5. 结论

在本文中，我们提出了一套策略来解决现有的场景文本检测算法的主要弱点：超长文本实例的不精确几何形状预测和处理重大比例变化的缺陷。全面的实验表明，所提出的方法可以从原则上解决这些问题，并且优于该领域标准数据集上以前的最新方法。此外，值得注意的是，所提出的策略实际上是相当笼统的，因此可以很容易地扩展到许多其他的一级文本检测方法。我们希望将其留待将来研究。