文本识别领域优秀论文

CV爵士天才

已于 2023-08-17 11:08:57 修改

阅读量179

点赞数 1

分类专栏：图像处理计算机视觉文章标签： python 人工智能 ocr 计算机视觉 paddle

于 2023-08-17 11:07:46 首次发布

本文链接：https://blog.csdn.net/xiaodianzi01/article/details/132336570

版权

图像处理同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

计算机视觉

4 篇文章 0 订阅

订阅专栏

文本识别领域优秀论文

1.Data Augmentation for Scene Text Recognition

paper:https://arxiv.org/abs/2108.06949

ICCV 2021 | 自然场景文本识别中的数据增强

论文解读：https://zhuanlan.zhihu.com/p/437630873

由于自然场景中可能出现大量文本，场景文本识别（STR）是计算机视觉中的一项具有挑战性的任务。大多数 STR 模型依赖于合成数据集进行训练，因为没有足够大且公开可用的标记真实数据集。由于 STR 模型是使用真实数据进行评估的，训练和测试数据分布之间的不匹配会导致模型性能不佳，尤其是在受噪声、伪影、几何、结构等影响的挑战性文本上。在本文中，我们介绍了 STRAug，它是由专为 STR 设计的 36 个图像增强函数组成。每个函数都模仿某些文本图像属性，这些属性可以在自然场景中找到，由相机传感器引起，或由信号处理操作引起，但在训练数据集中表现不佳。当使用 RandAugment 应用于强基线模型时，STRAug 显着提高了 STR 模型在规则和不规则测试数据集上的总体绝对精度，在 Rosetta 上提高了 2.10%，在 R2AM 上提高了 1.48%，在 CRNN 上提高了 1.30%，在 RARE 上提高了 1.35%，在 RARE 上提高了 1.06 TRBA 的 % 和 GCRNN 的 0.89%。 STRAug 函数提供的 API 具有多样性和简单性，可以轻松复制和验证 STR 的现有数据增强方法。

2.From Two to One A New Scene Text Recognizer with Visual Language Modeling Network

paper:https://arxiv.org/abs/2108.09661

ICCV 2021 | 从二到一：一种带有视觉语言建模网络的新场景文本识别器

在本文中，我们放弃了占主导地位的复杂语言模型，重新思考场景文本识别中的语言学习过程。与之前考虑两个独立结构的视觉和语言信息的方法不同，我们提出了一种视觉语言建模网络（VisionLAN），通过直接赋予视觉模型语言能力，将视觉和语言信息视为一个联合体。特别是，我们在训练阶段介绍了按字符遮挡特征图的文本识别。当视觉线索混乱（例如遮挡、噪声等）时，这种操作引导视觉模型不仅使用字符的视觉纹理，还使用视觉上下文中的语言信息进行识别。由于语言信息是与视觉特征一起获取的，不需要额外的语言模型，VisionLAN 的速度显着提高了 39%，并自适应地考虑语言信息来增强视觉特征，从而实现准确识别。此外，还提出了遮挡场景文本（OST）数据集来评估缺少字符视觉线索的情况下的性能。多项基准测试的最新结果证明了我们的有效性。

3.Mask_TextSpotter_An_End-to-End_Trainable_Neural_Network_for_Spotting_Text_with_Arbitrary_Shapes

CVPR2019 | 一种用于识别任意形状文本的端到端可训练神经网络

全文翻译：https://blog.csdn.net/weixin_43882068/article/details/124544180
paper:https://arxiv.org/abs/1908.08207

以端到端训练方式统一文本检测和文本识别已成为野外阅读文本的新趋势，因为这两项任务高度相关且互补。在本文中，我们研究了场景文本识别问题，旨在同时进行自然图像中的文本检测和识别。提出了一种名为 Mask TextSpotter 的端到端可训练神经网络。与之前由提议生成网络和序列到序列识别网络组成的管道的文本识别器不同，Mask TextSpotter 具有简单流畅的端到端学习过程，可以同时实现检测和识别通过语义分割直接来自二维空间。此外，提出了空间注意模块来增强性能和通用性。受益于所提出的检测和识别的二维表示，它可以轻松处理不规则形状的文本实例，例如弯曲文本。我们在四个英语数据集和一个多语言数据集上对其进行了评估，在检测和端到端文本识别任务中始终实现了优于最先进方法的性能。此外，我们还分别进一步研究了我们方法的识别模块，该方法在用于场景文本识别的规则和不规则文本数据集上显着优于最先进的方法。

4.Scene Text Recognition from Two-Dimensional Perspective

paper:https://arxiv.org/abs/1809.06508

CVPR 2018 | 场景文本识别 | 基于字符级语义分割网络的场景文本识别CA-FCN

受语音识别的启发，最近最先进的算法大多将场景文本识别视为序列预测问题。尽管取得了优异的性能，但这些方法通常忽略了一个重要事实：图像中的文本实际上分布在二维空间中。它的性质与语音完全不同，语音本质上是一维信号。原则上，直接将文本特征压缩为一维形式可能会丢失有用信息并引入额外的噪声。在本文中，我们从二维角度进行场景文本识别。设计了一个简单而有效的模型，称为字符注意全卷积网络（CA-FCN），用于识别任意形状的文本。场景文本识别是通过语义分割网络实现的，其中采用了字符注意机制。结合构词模块，CA-FCN可以同时识别脚本并预测每个字符的位置。实验表明，所提出的算法在规则和不规则文本数据集上都优于以前的方法。此外，它被证明对文本检测阶段的不精确定位更加鲁棒，这在实践中很常见。

5.Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition

paper: https://arxiv.org/abs/2107.12090

CVPR | 2021

尽管多年来文本识别已经有了显着的发展，但由于复杂的背景、不同的字体、不受控制的照明、扭曲和其他人为因素，最先进的 (SOTA) 模型在野外场景中仍然举步维艰。这是因为此类模型仅依赖视觉信息进行文本识别，缺乏语义推理能力。在本文中，我们认为语义信息除了视觉信息之外还提供补充作用。更具体地说，我们还通过提出一种执行联合视觉语义推理的多级多尺度注意力解码器来利用语义信息。我们的新颖性在于直觉，对于文本识别，应该以分阶段的方式完善预测。因此，我们的关键贡献是设计一个分阶段展开注意力解码器，其中由离散预测的字符标签调用的不可微性需要被绕过以进行端到端训练。虽然第一阶段使用视觉特征进行预测，但后续阶段使用联合视觉语义信息对其进行细化。此外，我们引入了多尺度 2D 注意力以及不同阶段之间的密集和残差连接，以处理不同尺度的字符大小，从而在训练期间获得更好的性能和更快的收敛。实验结果表明，我们的方法大大优于现有的 SOTA 方法。

6.Adaptive Text Recognition through Visual Matching

paper:https://arxiv.org/abs/2009.06610

ECCV 2020

在这项工作中，我们的目标是解决文档中文本识别的泛化性和灵活性问题。我们引入了一种新模型，该模型利用语言中字符的重复性质，并将视觉表示学习和语言建模阶段解耦。通过这样做，我们将文本识别转化为形状匹配问题，从而实现外观的泛化和类的灵活性。我们在不同字母表的合成数据集和真实数据集上评估了新模型，并表明它可以应对传统架构在不进行昂贵的再训练的情况下无法解决的挑战，包括：（i）它可以泛化到未见过的字体，而无需从中获得新的范例； (ii) 它可以灵活地改变类的数量，只需改变提供的范例； (iii)它可以推广到尚未通过提供新字形集进行训练的新语言和新字符。对于所有这些情况，我们都展示了比最先进模型的显着改进。