OCR论文阅读笔记01--multi-oriented scence text detection via corner localization and regin segmentation

https://arxiv.org/abs/1802.08948
题目:基于角点定位和回归的多场景文本检测
摘要:(1)目前基于深度学习的文本检测方法主要分为2类,
<1>基于目标检测的方法。直接回归文本框的坐标,但是可能对任意角度或者高横纵比的文本框效果不好;
<2>基于图像分割的方法。需要大量的复杂的后处理。首先生成分割图,然后后处理产生最终的文本包围框。
(2)本文提出的方法综合考虑了以上两种思想并避免了他们的缺点,我们通过对文本包围框的角点进行定位,并对文本区域进行相对位置的分割来检测场景文本。在推理阶段,通过对角点进行采样和分组生成候选框,这些候选框进一步通过分割映射进行评分并通过NMS去掉重叠的候选框。
(3)亮点:
<1>检测不是用一般的object detection的框架来做,而是用corner point detection来做。(可以更好解决文字方向任意、文字长宽比很大的文本)
<2>分割用的是“position sensitive segmentation”,仿照RFCN划分网格的思路,把位置信息融合进去(对于检测单词这种细粒度的更有利)
<3>把检测+分割两大类的方法整合起来,进行综合打分的pipeline(可以使得检测精度更高)

1、介绍
(1)场景文本检测具有挑战性既有内部的因素也有外部的因素
<1>外部的因素:环境,如噪声、模糊、遮挡等,这也是目标检测所遇到的常见问题,与一般的目标检测相比,场景文本检测更为复杂,因为[1] 方向的任意性,导致文本边界框可能是任意角度的长方形或者方形;[2]文本边界框的横纵比差异比较大;[3]由于场景文本可以是字符、单词或者文本行,所以边界定位时可能会造成混淆;
<2>内部的因素:场景文本本身的属性和变化非常大,比如形状、角度、尺度。
(2)我们的idea主要来源于两个观察:
<1>矩形框的位置由角点决定,与矩形框的大小、横纵比和角度无关;
<2>区域分割图可以很好的提供有效的文本位置
因此idea如下:我们首先检测文本区域的角点而不是直接检测文本区域的位置,此外,我们预测了敏感位置分割地图,而不是将区域直接分为文本/非文本区域;最终,通过对角点的随机采样和分组生成候选包围框,并通过分割信息剔除掉不合理的候选框,网络的pipeline如下图:
pipelie
(3)方法的优点:
<1>通过对场景角点的采样和分组来检测场景文本,可以很自然地处理任意方向的文本;
<2>由于我们检测的是角点而不是文本包围框,我们的方法可以自动避免长径比变化较大的问题;
<3>位置敏感分割,无论文本实例是字符、单词还是文本行,都能很好地分割文本实例;
<4>在我们的方法中,候选框的边界由角点确定。与锚点([27,32])或文本区域([53,16])返回的文本包围框相比,生成的包围框更准确,特别是对于长文本。
(4)本文的贡献:
<1>提出了一种结合目标检测和分割思想的场景文本检测器,可以对其进行端到端的训练和评估。
<2>基于位置敏感的ROIpooling[9],我们提出了一个旋转位置敏感的ROI平均池层,可以处理任意方向的提案。
<3>我们的方法可以同时处理之前方法所遇到的面向多场景文本的挑战(如旋转、变长径比、非常接近的实例)。
<4>我们的方法在精度和效率上都取得了较好的或有竞争力的结果
2、网络架构:
在这里插入图片描述
网络采用全卷积神经网络来完成特征提取、角点检测和文本敏感区域分割;其中
<1>特征提取:采用预训练的VGG16来提取特征,将fc6和fc7层换成卷积层conv6和conv7,并在后面添加了一些卷积层(conv8, conv9, conv10, conv11),用于增加感受野的范围。之后采用DSSD的top-down pathway结构,解卷积采用了从conv11到conv3的feature map(其中conv10到conv3的featrue map被重用),输出的feature命名为。最后得到的conv11,和所有解卷积的feature maps用于角点和位置敏感图(position-sensitive)的预测。
<2>角点检测:对于一个旋转矩形来讲,可以通过顺时针分布的四个角点来得到,这四个点位置分别为左上,右上,左下,右下。为了更方便的检测角点,文中对角点进行的新的定义,,其中代表一个角点如(这个左上角点),同时它也是一个水平矩形的中心点,ss代表的是待检测旋转矩形的短边。这里意思就是将待检测角点用一个水平矩形表示,角点的位置就是这个水平矩形的中心,检测出水平矩形就相当于检测出角点的位置。通过上面角点的重新定义,检测角点的方法就可以类似于SSD和DSSD,利用定义的default boxes(类似于Faster RCNN中的anchor boxes)来进行矩形的检测。与物体检测有所不同的是,同一个位置可能存在多个角点(例如同一个位置可能同时为左下角点和右上角点)。所以对于大小为的feature map同时有k个default boxes的情况,score branch输出的类别分数(是否存在角点)通道数为,offset branch输出的通道数。
<3>位置敏感分割:
对于一个文本框,可以将框等分为部分,本文中分为也就是四个区域,这部分的预测用于对上面检测出的框打分使用。下面会说明。这部分的输出是重用了,上采用至大小然后相加,最后连续使用两个Conv1x1- BN-ReLU-Deconv2x2 块,得到通道大小与输入图像一样的feature map。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值