【OCR文章】CRNN 端到端可训练神经网络对于OCR的应用

背景论文

photoOCR: reading text in uncontrolled conditions

作者: A Bissacco
在这里插入图片描述
DCNN(检测并识别分割字符)的鼻祖,使用标注好的字符图像去分类字符,需要有很强的字符检测和分割算法,同时需要将检测出的字符从原图中裁剪出来。

reading text in the wild with convolutional neural networks

作者:M Jaderberg
因为我自己在做化学式识别,所以就用自己画的图了

这个算法总体来说就是先画出几个框,不断优化框的范围,然后就对框内的字符进行识别,打分,最后确定框的位置和框里的内容。

他的优点是:端到端的训练,并且使用单词级别的识别粒度,准确率提高,缺点是模型过大,并且对于字符数量多的中文扩展性不好

a novel connectionist system for unconstrained handwriting recongnition

作者:A Graves, M Liwicki, S Fernández

手写体识别的文章,是一篇基于预定义词典的单词识别,是纯识别类文章,使用hook之类的传统机器学习方法进行特征方法,得到序列,并输入BILSTM后输出到CTC并将输出对应到词典里的单词,判断哪个单词的可能性最大。
在这里插入图片描述

优点是:摒弃了马尔科夫模型,而是用LSTM模型,可以处理字符不易分割、双向依赖类序列标注任务。
缺点是:不支持端到端训练、也没有使用CNN提取特征。

word spotting and recognition with embedded attributes

作者 Jon Almazan, Albert Gordo, Alicia Forn ´ es, Ernest Valveny

这篇文章是把图片卷积后,投影到子空间中,吧OCR任务建模位一个特征空间单词检索任务。不过他的准确率不及基于CNN的模型。
来问文章的图片

CRNN 正文

CRNN 的研究成果和意义

作者:B SHI

首先是说自己有更高的准确率和更小的模型。

下面是CRNN文章里写出的测试比较,其中数据集下面的子集数字表示使用的预定义词典数,横线则代表没有这个实验。
这里使用了四个数据集
端到端训练的模型其实是非常重要的,这代表模型易用性高,只要给定输入和输出就能进行测试或者训练,不需要额外的预处理。

并且网络使用卷积进行特征提取,不需要字符级别的人工标注,且支持无预定词典。

同时模型大小仅仅有8.3M,在OCR模型中是非常重要的,因为实际应用中,不一定有很大的内存空间进行数据存储。即使到现在2021,也很少有比CRNN更小的模型
模型的特性总结,CRNN支持端到端训练,使用卷积提取特征,
这篇文章以前的OCR文章将分离的不同模块单独训练,比如特征提取-》特征筛选-》特征识别。

这篇文章开启了OCR的一种基本方法论,以后的OCR技术都朝着端到端训练,集特征提取、识别、解码集成于一体的模型。同时这个模型的小型化也加速了OCR在计算机视觉应用上的落地。

文章认为文字识别是对序列的预测方法,所以采用了对序列预测的RNN网络。通过CNN将图片的特征提取出来后采用RNN对序列进行预测,最后通过一个CTC的翻译层得到最终结果。说白了就是CNN+RNN+CTC的结构。

这里着重介绍一下CTC算法,见这篇文章.

总的来说 CTC (Connectionist Temporal Classification)适合这种不知道输入输出是否对齐的情况使用的算法,他通过引入空位符和Q变换,来让多种识别序列能映射到同一个单词,因此提高正确单词的识别率。

实验设置和结果分析

模型模块对比

模型指标对比

Lexicon-based 参数影响

在有词典辅助时,需要设置搜索邻域大小,因为不可能在全集里面搜索词汇,这样时间复杂度太高,因此设置一定的邻域大小来降低搜索复杂度。邻域大小过大或导致时间复杂度过高,邻域过小会导致模型衰减为无词典辅助模型。

文章以一种算法为主测试了最佳的邻域大小。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
OCR(Optical Character Recognition)是一种光学字符识别技术,用于将印刷或手写文字转换成数字化文本。CRNN(Convolutional Recurrent Neural Networks)是一种深度学习模型,结合了卷积神经网络和循环神经网络,常用于OCR领域的文本识别任务。 国内外在OCRCRNN领域的研究现状如下: 国内研究现状: 1. 针对印刷体文字识别,国内研究人员主要关注于模型优化和数据增强。如利用自监督学习方法提高模型准确度,使用GAN生成样本进行数据增强等。 2. 针对手写汉字识别,国内研究人员主要关注于数据集构建和模型设计。如构建了包含数十万个汉字样本的数据集,设计了基于CRNN的多尺度特征融合模型等。 3. 针对OCR在场景文字识别中的应用,国内研究人员主要关注于文字检测和识别的联合训练。如利用的网络结构进行文字检测和识别的联合训练,提高场景文字识别的准确度。 国外研究现状: 1. 针对OCR技术在多语言识别中的应用,国外研究人员主要关注于多语言的OCR模型设计和跨语言的迁移学习。如利用多语言训练数据进行迁移学习,提高跨语言OCR的准确度。 2. 针对OCR技术在图像处理中的应用,国外研究人员主要关注于OCR技术在图像去噪、图像增强、图像分割等方面的应用。如利用OCR技术进行文本线条分割,提高文本检测的准确度。 3. 针对OCR技术在实际场景中的应用,国外研究人员主要关注于OCR技术在车牌识别、身份证识别、银行卡识别等方面的应用。如利用OCR技术在车牌识别中进行车型识别,提高车牌识别的准确度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值