论文： TextBoxes

最新推荐文章于 2024-04-14 09:57:04 发布

xxiaozr

最新推荐文章于 2024-04-14 09:57:04 发布

阅读量2k

点赞数

分类专栏：论文文章标签：论文

本文链接：https://blog.csdn.net/xxiaozr/article/details/77412612

版权

论文专栏收录该内容

29 篇文章 0 订阅

订阅专栏

在SSD的结构上做了一些改进使之更适合场景文字识别。
文字识别有助于区分文本和背景。

Contribution：一个端到端的场景文字识别模型。结合了检测和识别。高效。

文字检测可以大概分为三类：
1. Character-based: 单个字符的检测，之后组成words
2. Word-based:类似于一般的目标检测方法，生成一些word candidate，送到CNN中训练
3. Text-line-based:Text-line are detected and then broken into words.
TextBoxes是第三种。CRNN输出图像的文字序列，结合TextBoxes和CRNN。使用CRNN的confidence scores 输出去修正TextBoxes的dectections 输出。

TextBoxes 的结构：
这里写图片描述
多层输出连接到Text-box layers，之后接非极大值抑制（NMS）
Text-box layers 是TextbBoxes的关键。类似于SSD，输出buondingbox坐标和分类分数。
default box 的应该根据任务来设计。words倾向于比较大的ratio aspect，扁长形。同时取消在垂直方向上的bounding box。即flip = False 。因为垂直方向上大的ration aspect 的default box和groundtruth 重合的很少。
在Text-box layers 中使用1*5的卷积代替3*3的卷积。长方形的感受野和扁长型的words更合适。
和SSD具有相同的损失函数，不过分类L(conf)从多分类变成两类，文本和背景。
多尺度输入。测试的时候将图片变成不同的尺度输入网络，进行预测。不同于训练，训练的时候还是只有一个尺度。

CRNN进行文本识别
a recognizer can help eliminating false-positive detection results that are unlikely to be meaningful words
将TextBoxes产生的boundingbox，应用这里写图片描述用S来代替原来的分数，之后再接一个NMS。CRNN是一个训练好的模型。
text spotting：和文字检测不同的是，可以利用带字典的文字识别进行调整检测结果，最终是用文字检测的结果进行评判

对SSD的修改(根据自己的数据修改)：
max_ration
aspect_ration
normalizations
mbox_layer{kernel_size:[1,5],pad=[0,2]}
flip
min_dim
resize_height
resize_width

xxiaozr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文： TextBoxes

在SSD的结构上做了一些改进使之更适合场景文字识别。文字识别有助于区分文本和背景。Contribution：一个端到端的场景文字识别模型。结合了检测和识别。高效。文字检测可以大概分为三类： 1. Character-based: 单个字符的检测，之后组成words 2. Word-based:类似于一般的目标检测方法，生成一些word candidate，送到CNN中训练 3. Text-
复制链接

扫一扫