【scene text recognition 】相关论文主要内容

最新推荐文章于 2024-04-15 09:53:43 发布

Koihoo

最新推荐文章于 2024-04-15 09:53:43 发布

阅读量368

点赞数

分类专栏： STR

本文链接：https://blog.csdn.net/weixin_44892610/article/details/109218935

版权

STR 专栏收录该内容

1 篇文章

订阅专栏

str开源论文相关

Mask TextSpotter v2：用于定位任意形状文本的端到端可训练网络（tpami2019）
Mask TextSpotter v3：基于分割的场景文本定位算法（cvpr2020）
ContourNet：进一步朝着准确任意形状的场景文本检测迈进

Mask TextSpotter v2：用于定位任意形状文本的端到端可训练网络（tpami2019）

https://github.com/MhLiao/MaskTextSpotter

摘要

以端到端的培训方式统一文本检测和文本识别已成为在野外阅读文本的新趋势，因为这两项任务是高度相关和互补的。在本文中，我们研究了场景文本斑点的问题，该问题旨在在自然图像中同时进行文本检测和识别。提出了一个名为MaskTextSpotter的端到端可训练神经网络。与之前的由提案生成网络和序列到序列识别网络组成的管道的文本发现者不同，Mask TextSpotter具有简单，流畅的端到端学习过程，在该过程中，检测和识别都可以直接从通过语义分割的二维空间。此外，提出了非人为注意模块以增强性能和通用性。得益于建议的检测和识别的二维表示，它可以轻松处理不规则形状的文本实例，例如弯曲文本。我们在四个英语数据集和一个多语言数据集上对其进行了评估，在检测和端到端文本识别任务中，其性能均优于最新方法。此外，我们进一步分别研究了我们的方法的识别模块，该模块在场景文本识别的规则和不规则文本数据集上均明显优于最新方法。

结论

我们介绍了Mask TextSpotter，这是一种在野外进行端到端文本识别的新颖框架。与以前的将基于学习的文本识别视为一维序列预测问题的文本发现者不同，该方法非常易于训练并且能够读取不规则文本，从二维信息中用于检测和识别的表示。Mask TextSpotter在基于水平基准，定向文本和弯曲文本的标准基准上进行的场景文本检测，场景识别和端到端文本识别任务中获得的最新结果证明了其一般性和阅读有效性场景文字。将来，我们希望提高MaskTextSpotter的效率，特别是探索用更优雅的检测方法替换检测阶段，这是所提出方法中最耗时的部分。

Mask TextSpotter v3：基于分割的场景文本定位算法（cvpr2020）

https://github.com/MhLiao/MaskTextSpotterV3
v1网络是在We implement our method in Caffe2 and conduct all experiments on a regularworkstation with Nvidia Titan Xp GPUs. The model is trained in parallel andevaluated on a single GPU.

摘要

近年来，端到端的场景文本点集，检测和识别集成的可训练方法取得了很大的进展。但是，当前大多数任意形状的场景文本查找器都使用区域提议网络（RPN）来生成提议。 RPN严重依赖手动设计的锚，其建议以与轴对齐的矩形表示。前者在处理具有极高纵横比或不规则形状的文本实例时会遇到困难，而在文本密集的情况下，后者通常会将多个相邻实例包含在一个提案中。为解决这些问题，我们提出了Mask TextSpotter v3，这是一种采用SegmentationProposal Network（SPN）而不是RPN的端到端可训练场景文本检测器。我们的SPN无需锚定，可以准确表示任意形状的提案。因此，它在检测极端长宽比或不规则形状的文本实例方面优于RPN。此外，SPN产生的准确建议允许将屏蔽的RoI功能用于解耦相邻文本实例。因此，我们的Mask TextSpotter v3可以处理具有长宽比或不规则形状的文本实例，并且其识别准确性不会受到附近文本或背景噪音的影响。具体来说，我们在旋转ICDAR 2013数据集（旋转鲁棒性）上比最新方法高出21.9％，在全部文本数据集（形状鲁棒性）上比最新技术高出5.9％，并在每 MSRA-TD500数据集上的性能（长宽比健壮性）。

结论

我们建议使用Mask TextSpotter v3，这是一种端到端可训练的任意形状的场景文本侦查器。它引入了SPN来生成以精确多边形表示的提案。得益于更准确的建议，与以前使用RPN生成建议书的任意形状场景文本点样器相比，Mask TextSpotter v3在检测和识别具有旋转或不规则形状的文本实例时更加强大。我们在具有不同旋转角度的Rotated ICDAR 2013数据集，具有长文本行的MSRA-TD500数据集以及具有各种文本形状的Total-Text数据集上的实验结果证明了Mask TextSpotter v3的鲁棒性，高宽比和形状变化。此外，IC15数据集的结果表明，提出的Mask TextSpotter v3在检测和识别小文本实例方面也很可靠。我们希望提出的SPN可以将OCR的应用扩展到其他具有挑战性的领域[10]，并为其他对象检测/实例细分任务中使用的提议生成器提供见解。

局限性

尽管Mask TextSpotter v3在旋转文本变体方面比现有的最新技术水平要强大得多，但在某些极端旋转角度（例如最大角度）下，它仍然会遭受较小的性能干扰。 90°，如图4.3所示，因为识别器很难判断文本序列的方向。将来，我们计划使识别器对这种旋转更加鲁棒。

ContourNet：进一步朝着准确任意形状的场景文本检测迈进

https://github.com/wangyuxin87/ContourNet
该实验在The model is implemented in Pytorch andtrained on 1 NVIDIA TITANX GPU using Adam opti-mizer [13].

摘要

场景文本检测见证了最近几年的快速发展。但是，仍然存在两个主要挑战：1）许多方法在其文本表示形式中存在假肯定。 2）场景文本的大规模差异使网络很难学习样本。在本文中，我们提出了ContourNet，它可以有效地解决这两个问题，并朝着准确的任意形状的文本检测迈出了一步。首先，提出了一种对规模不敏感的自适应区域提议网络（Adaptive-RPN），以仅
的“交集”（IoU）值来生成文本提议。然后，一种新颖的局部正交纹理感知模块（LOTM）在两个正交方向上对投标特征的局部纹理信息进行建模，并用一组轮廓点表示文本区域。考虑到强单向或弱正交激活通常是由假阳性图案（例如条纹）的单调纹理特征引起的，因此我们的方法仅通过在两个正交方向上输出具有高响应值的预测来有效地抑制这些假阳性。这样可以更准确地描述文本区域。在三个具有挑战性的数据集（Total-Text，CTW1500和ICDAR2015）上进行的广泛实验验证了我们的方法达到了最先进的性能。

结论

在本文中，我们提出了一种新颖的场景文本检测方法（ContourNet）来处理文本表示中的误报和大范围方差问题。 Con-tourNet主要由Adaptive-RPN，LOTM和Point Re-scoring算法三部分组成。 Adaptive-RPN通过限制几个语义点的空间扩展来定位文本的初步建议。 LOTM在两个正交方向上建模局部纹理信息，并用轮廓点表示文本区域。点重新评分算法通过同时考虑两个正交方向上的响应值来过滤FP。我们的方法的有效性已在多个公开基准中得到了证明，包括冗长，弯曲和面向文本的案例。在以后的工作中，我们更喜欢开发端到端的文本阅读系统。