一、概述
最近,提取和理解自然场景中包含的文本信息变得越来越重要和受欢迎,ICDAR系列竞赛的前所未有的大量参与者和NIST推出的TRAIT 2016评估证明了这一点。文本检测作为后续过程的先决条件,在文本信息提取和理解的整个过程中起着至关重要的作用。以前文本检测方法已经在各种基准测试中获得了很好的表现这个领域。文本检测的核心是区分文本和背景的功能设计。传统上,功能是手动设计的在深度学习中捕获场景文本的属性基于方法的有效特征是直接从培训数据中学习。但是,现有的方法,无论是常规的还是深的基于神经网络,主要由几个阶段组成组件,可能是次优和耗时的。因此,这样的准确性和效率方法仍然远远不能令人满意。
二、EAST结构
通过下图我们知道,一个文本检测有多个阶段,就以region proposals系的检测算法为例,他们通常包含候选框提取、候选框过滤、bouding box回归、候选框合并等阶段,EAST的作者认为,一个文本检测算法被拆分成多个阶段其实并没有太多好处,实现真正端到端的文本检测网络才是正确之举。所以EAST的pipeline相当优雅,只分为FCN生成文本行参数阶段和局部感知NMS阶段,网络的简洁是的检测的准确性和速度都有了进一步的提高。
EAST的主要优势:
1、提出了一种场景文本检测方法,包括两个阶段:完全卷积网络和NMS合并阶段。 FCN直接生成文本区域,不包括冗余和耗时的中间步骤。
2、管道可灵活生成字级或线级预测,其几何形状可以是旋转框或四边形,具体取决于具体应用。
3、所提出的算法在准确性和速度方面明显优于最先进的方法。
网络结构如下图所示:
由论文可以看出EAST网络分为特征提取层+特征融合层+输出层三大部分:
1、特征提取层: backbone采取PVANet来做特征提取,接下来送入卷积层,而且后面的卷积层的尺寸依次递减(size变为上一层的一半),而且卷积核的数量依次递增(是前一层的2倍)。抽取不同level的feature map,这样可以得到不同尺度的特征图,目的是解决文本行尺度变换剧烈的问题,size大的层可用于预测小的文本行,size小的层可用于预测大的文本行。
2、特征合并层,将抽取的特征进行merge.这里合并的规则采用了U-net的方法,合并规则:从特征提取网络的顶部特征按照相应的规则向下进行合并,这里描述可能不太好理解,具体参见下述的网络结构图。
3、网络输出层:网络的最终输出有5大部分,他们分别是:
- score map:一个参数&#