OCR论文阅读笔记01--multi-oriented scence text detection via corner localization and regin segmentation

最新推荐文章于 2020-11-01 16:54:18 发布

张小丫先森

最新推荐文章于 2020-11-01 16:54:18 发布

阅读量521

点赞数

分类专栏：随笔文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_44493916/article/details/93114968

版权

随笔专栏收录该内容

16 篇文章 1 订阅

订阅专栏

https://arxiv.org/abs/1802.08948
题目：基于角点定位和回归的多场景文本检测
摘要：（1）目前基于深度学习的文本检测方法主要分为2类，
<1>基于目标检测的方法。直接回归文本框的坐标，但是可能对任意角度或者高横纵比的文本框效果不好；
<2>基于图像分割的方法。需要大量的复杂的后处理。首先生成分割图，然后后处理产生最终的文本包围框。
（2）本文提出的方法综合考虑了以上两种思想并避免了他们的缺点，我们通过对文本包围框的角点进行定位，并对文本区域进行相对位置的分割来检测场景文本。在推理阶段，通过对角点进行采样和分组生成候选框，这些候选框进一步通过分割映射进行评分并通过NMS去掉重叠的候选框。
（3）亮点：
<1>检测不是用一般的object detection的框架来做，而是用corner point detection来做。（可以更好解决文字方向任意、文字长宽比很大的文本）
<2>分割用的是“position sensitive segmentation”，仿照RFCN划分网格的思路，把位置信息融合进去（对于检测单词这种细粒度的更有利）
<3>把检测+分割两大类的方法整合起来，进行综合打分的pipeline（可以使得检测精度更高）

1、介绍
（1）场景文本检测具有挑战性既有内部的因素也有外部的因素
<1>外部的因素：环境，如噪声、模糊、遮挡等，这也是目标检测所遇到的常见问题，与一般的目标检测相比，场景文本检测更为复杂，因为[1] 方向的任意性，导致文本边界框可能是任意角度的长方形或者方形；[2]文本边界框的横纵比差异比较大；[3]由于场景文本可以是字符、单词或者文本行，所以边界定位时可能会造成混淆；
<2>内部的因素：场景文本本身的属性和变化非常大，比如形状、角度、尺度。
（2）我们的idea主要来源于两个观察：
<1>矩形框的位置由角点决定，与矩形框的大小、横纵比和角度无关；
<2>区域分割图可以很好的提供有效的文本位置
因此idea如下：我们首先检测文本区域的角点而不是直接检测文本区域的位置，此外，我们预测了敏感位置分割地图，而不是将区域直接分为文本/非文本区域；最终，通过对角点的随机采样和分组生成候选包围框，并通过分割信息剔除掉不合理的候选框，网络的pipeline如下图：
pipelie
(3)方法的优点：
<1>通过对场景角点的采样和分组来检测场景文本，可以很自然地处理任意方向的文本;
<2>由于我们检测的是角点而不是文本包围框，我们的方法可以自动避免长径比变化较大的问题;
<3>位置敏感分割，无论文本实例是字符、单词还是文本行，都能很好地分割文本实例;
<4>在我们的方法中，候选框的边界由角点确定。与锚点([27,32])或文本区域([53,16])返回的文本包围框相比，生成的包围框更准确，特别是对于长文本。
(4)本文的贡献：
<1>提出了一种结合目标检测和分割思想的场景文本检测器，可以对其进行端到端的训练和评估。
<2>基于位置敏感的ROIpooling[9]，我们提出了一个旋转位置敏感的ROI平均池层，可以处理任意方向的提案。
<3>我们的方法可以同时处理之前方法所遇到的面向多场景文本的挑战(如旋转、变长径比、非常接近的实例)。
<4>我们的方法在精度和效率上都取得了较好的或有竞争力的结果
2、网络架构：
在这里插入图片描述
网络采用全卷积神经网络来完成特征提取、角点检测和文本敏感区域分割；其中
<1>特征提取：采用预训练的VGG16来提取特征，将fc6和fc7层换成卷积层conv6和conv7，并在后面添加了一些卷积层(conv8, conv9, conv10, conv11)，用于增加感受野的范围。之后采用DSSD的top-down pathway结构，解卷积采用了从conv11到conv3的feature map（其中conv10到conv3的featrue map被重用），输出的feature命名为。最后得到的conv11，和所有解卷积的feature maps用于角点和位置敏感图(position-sensitive)的预测。
<2>角点检测：对于一个旋转矩形来讲，可以通过顺时针分布的四个角点来得到，这四个点位置分别为左上，右上，左下，右下。为了更方便的检测角点，文中对角点进行的新的定义，，其中代表一个角点如(这个左上角点)，同时它也是一个水平矩形的中心点，ss代表的是待检测旋转矩形的短边。这里意思就是将待检测角点用一个水平矩形表示，角点的位置就是这个水平矩形的中心，检测出水平矩形就相当于检测出角点的位置。通过上面角点的重新定义，检测角点的方法就可以类似于SSD和DSSD，利用定义的default boxes(类似于Faster RCNN中的anchor boxes)来进行矩形的检测。与物体检测有所不同的是，同一个位置可能存在多个角点(例如同一个位置可能同时为左下角点和右上角点)。所以对于大小为的feature map同时有k个default boxes的情况，score branch输出的类别分数(是否存在角点)通道数为，offset branch输出的通道数。
<3>位置敏感分割：
对于一个文本框，可以将框等分为部分，本文中分为也就是四个区域，这部分的预测用于对上面检测出的框打分使用。下面会说明。这部分的输出是重用了，上采用至大小然后相加，最后连续使用两个Conv1x1- BN-ReLU-Deconv2x2 块，得到通道大小与输入图像一样的feature map。