论文: TextBoxes

在SSD的结构上做了一些改进使之更适合场景文字识别。
文字识别有助于区分文本和背景。

Contribution:一个端到端的场景文字识别模型。结合了检测和识别。高效。

文字检测可以大概分为三类:
1. Character-based: 单个字符的检测,之后组成words
2. Word-based:类似于一般的目标检测方法,生成一些word candidate,送到CNN中训练
3. Text-line-based:Text-line are detected and then broken into words.
TextBoxes是第三种。CRNN输出图像的文字序列,结合TextBoxes和CRNN。使用CRNN的confidence scores 输出去修正TextBoxes的dectections 输出。

TextBoxes 的结构:
这里写图片描述
多层输出连接到Text-box layers,之后接非极大值抑制(NMS)
Text-box layers 是TextbBoxes的关键。类似于SSD,输出buondingbox坐标和分类分数。
default box 的应该根据任务来设计。words倾向于比较大的ratio aspect,扁长形。同时取消在垂直方向上的bounding box。即flip = False 。因为垂直方向上大的ration aspect 的default box和groundtruth 重合的很少。
在Text-box layers 中使用1*5的卷积代替3*3的卷积。长方形的感受野和扁长型的words更合适。
和SSD具有相同的损失函数,不过分类L(conf)从多分类变成两类,文本和背景。
多尺度输入。测试的时候将图片变成不同的尺度输入网络,进行预测。不同于训练,训练的时候还是只有一个尺度。

CRNN进行文本识别
a recognizer can help eliminating false-positive detection results that are unlikely to be meaningful words
将TextBoxes产生的boundingbox,应用这里写图片描述用S来代替原来的分数,之后再接一个NMS。CRNN是一个训练好的模型。
text spotting:和文字检测不同的是,可以利用带字典的文字识别进行调整检测结果,最终是用文字检测的结果进行评判

对SSD的修改(根据自己的数据修改):
max_ration
aspect_ration
normalizations
mbox_layer{kernel_size:[1,5],pad=[0,2]}
flip
min_dim
resize_height
resize_width

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值