What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

论文链接
https://arxiv.org/abs/1904.01906
github代码
https://github.com/clovaai/deep-text-recognition-benchmark

摘要

  • 分析了现有论文提到的各个数据集的不一致性。
  • 针对OCR识别提出了一个统一的框架,将模型分成4个连续的部分:矫正转换(Trans),特征提取(Feat),序列模块(Seq),预测(Pred)
  • 该框架不仅提供了现有的方法,而且还提供了它们可能的变体,以便对模块方面的贡献进行广泛的分析。通过这项研究,我们更加严格地评估了各个模块的贡献,并提出了以前被忽视的模块组合,从而改进了现有的技术水平。此外,我们还分析了基准数据集上的失败案例,以确定STR中的剩余挑战。

统一训练集与测试集

MJSynth(MJ)含有8.9百万的croped文本图片,主要特点如下:
不同的字体渲染
边框和阴影渲染
背景着色
字体,边框和背景的合成
应用投影失真
与现实世界的图像混合
添加噪音

SynthText(ST),是另外一个人工合成的图片,其本来是用于文本定位的。但是其中可以crop出5.5百万的文字图片
MJ和SJ的样例图:
在这里插入图片描述
在前有的论文中,有些论文用了MJ/ST,而训练数据集的不统一,就很难评判是否是模型的提高,所以以后要用同样的训练数据集
主要有7个现实数据集,如上图。同时可以分为常规数据集和非常规数据集:

IIIT
SVT,谷歌街景图像,257张训练,647张测试,有很强的噪音,模糊和低分辨率
IC03
IC13
非常规数据集
IC15
SP是从谷歌街景中收集的,包含645幅图像用于评估。由于非正面视角的流行,许多图像包含了透视投影
CT,主要为弯曲的文本

测试结果

在这里插入图片描述

3. STR框架分析

STR任务和与计算机视觉任务(如目标检测)和序列预测任务相似,所以很多都是CNN和RNN的提高。
在这里插入图片描述

  • 第一个就是CRNN,CNN+RNN的组合,用CNN提取特征,用RNN对其进行重构,实现鲁棒序列预测
  • 为了矫正文本图像,矫正模块提出来了
  • 改进的CNN特征提取器
  • 为了提高推理速度,有的模型忽略了RNN
  • 为了提高字符序列预测,提出了基于注意力的解码器

整个框架主要分为了4个部分

  • 1.矫正模块
    TPS,一个STN的变体,以其灵活性应用于文本行不同的纵横比[24,17]。TPS在一组基准点之间使用平滑样条插值,
  • 2.特征提取模块
    主要测试了VGG,RCNN,ResNet
  • 3.序列模块
    主要是从CNN的特征中提取额外的特征,主要用BiLSTM,RNN是单方向的
  • 4.预测模块
    主要有两种方式:CTC和attention基于注意力机制的方式

4. 实验和分析

  • 训练样本的多样性比训练样本的数量重要
  • ResNet、BiLSTM、TPS的加入,使得耗时从1.3ms增加到10.9ms,然而极大提升了准确率(从69.5%到82.9%)。Attn值提升了1.1%的准确率,代价是效率降低(27.6ms)
  • 当用于fine-tune的真实数据与测试数据的分布相近时,fine-tune是有效的;否则,就是对准确率有害的。

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值