CVPR2020论文解读：OCR场景文本识别

最新推荐文章于 2024-06-18 15:35:34 发布

wujianming_110117

最新推荐文章于 2024-06-18 15:35:34 发布

阅读量2k

点赞数 2

分类专栏： IP专利采购授权，工具库算力调度&计算&算力优化 Autosar&EDA&QNX&CAN&MIPI&PCIE

吴建明

本文链接：https://blog.csdn.net/wujianing_110117/article/details/105079471

版权

本文介绍了ABCNet，一种使用自适应贝塞尔曲线处理任意形状场景文本的实时识别方法。通过参数化贝塞尔曲线，该方法能精确定位并识别文本，同时保持高效。相比于传统的基于边界框的方法，ABCNet在精度和速度上具有优势，尤其在全文本识别上，速度提升10倍以上。

摘要由CSDN通过智能技术生成

CVPR2020论文解读：OCR场景文本识别

ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve
Network∗
在这里插入图片描述

论文链接：https://arxiv.org/pdf/2002.10200.pdf

摘要

场景文本的检测与识别越来越受到人们的关注。现有的方法大致可以分为两类：基于字符的方法和基于分割的方法。这些方法要么代价高昂，要么需要维护复杂的管道，这通常不适合实时应用。在这里，我们提出了自适应贝塞尔曲线网络（ABCNet）来解决这个问题。我们的贡献有三点：

1）第一次，我们通过参数化的贝塞尔曲线自适应地处理任意形状的文本。

2）我们设计了一个新的bezierallign层，用于提取任意形状文本实例的精确卷积特征，与以前的方法相比，显著提高了精度。

3）与标准包围盒检测方法相比，我们的Bezier曲线检测方法的计算开销可以忽略不计，从而使我们的方法在效率和精度上都具有优势。在任意形状的基准数据集total Text和CTW1500上的实验表明，ABCNet达到了最新的精度，同时显著提高了速度。特别是，在全文本上，我们的实时版本比最新的状态识别方法快10倍以上，具有竞争性的识别精度。

Introduction

我们的主要贡献总结如下。

•为了精确定位图像中的定向和弯曲场景文本，我们首次引入了一种新的使用贝塞尔曲线的弯曲场景文本的简明参数化表示。与标准的边界框表示相比，它引入了可忽略的计算开销。
•我们提出了一种采样方法，即a.k.a.Bezier对齐，用于精确的特征对齐，因此识别分支可以自然地连接到整个结构。通过共享主干特征，识别分支可以设计成轻量级结构。
•我们方法的简单性允许它实时进行推理。ABCNet在Total Text和CTW1500这两个具有挑战性的数据集上实现了最先进的性能，展示了在效率和效率方面的优势。

在这里插入图片描述