CVPR2020论文解读:OCR场景文本识别

本文介绍了ABCNet,一种使用自适应贝塞尔曲线处理任意形状场景文本的实时识别方法。通过参数化贝塞尔曲线,该方法能精确定位并识别文本,同时保持高效。相比于传统的基于边界框的方法,ABCNet在精度和速度上具有优势,尤其在全文本识别上,速度提升10倍以上。
摘要由CSDN通过智能技术生成

CVPR2020论文解读:OCR场景文本识别

ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve
Network∗
在这里插入图片描述

论文链接:https://arxiv.org/pdf/2002.10200.pdf

摘要

场景文本的检测与识别越来越受到人们的关注。现有的方法大致可以分为两类:基于字符的方法和基于分割的方法。这些方法要么代价高昂,要么需要维护复杂的管道,这通常不适合实时应用。在这里,我们提出了自适应贝塞尔曲线网络(ABCNet)来解决这个问题。我们的贡献有三点:

1) 第一次,我们通过参数化的贝塞尔曲线自适应地处理任意形状的文本。

2) 我们设计了一个新的bezierallign层,用于提取任意形状文本实例的精确卷积特征,与以前的方法相比,显著提高了精度。

3) 与标准包围盒检测方法相比,我们的Bezier曲线检测方法的计算开销可以忽略不计,从而使我们的方法在效率和精度上都具有优势。在任意形状的基准数据集total Text和CTW1500上的实验表明,ABCNet达到了最新的精度,同时显著提高了速度。特别是,在全文本上,我们的实时版本比最新的状态识别方法快10倍以上,具有竞争性的识别精度。

  1. Introduction

我们的主要贡献总结如下。

•为了精确定位图像中的定向和弯曲场景文本,我们首次引入了一种新的使用贝塞尔曲线的弯曲场景文本的简明参数化表示。与标准的边界框表示相比,它引入了可忽略的计算开销。
•我们提出了一种采样方法,即a.k.a.Bezier对齐,用于精确的特征对齐,因此识别分支可以自然地连接到整个结构。通过共享主干特征,识别分支可以设计成轻量级结构。
•我们方法的简单性允许它实时进行推理。ABCNet在Total Text和CTW1500这两个具有挑战性的数据集上实现了最先进的性能,展示了在效率和效率方面的优势。

在这里插入图片描述

1.1. Related Work

我们将几种具有代表性的基于深度学习的场景文本识别方法归纳为以下两类。图2显示了典型作品的概述。

Regular End-to-end Scene Text Spotting

Arbitrarily-shaped End-to-end Scene Text Spotting

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值