OCR识别的几种深度学习方法

OCR识别分两步:

1、检测:找到包含文字/数字的区域(proposal);


2、分类:识别区域中的文字/数字。

检测:
1、 faster-rcnn系列:基于区域的对象检测,特点是精度较高,缺点是速度慢;


2、yolo系列:基于回归的对象检测,特点是速度快,缺点是精度低。

分类:
1、Ian goodfellow在13年提出的multi-digit number classification([1312.6082] Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks), 基于deep CNN.缺点是要事先选定可预测的sequence的最大长度,较适用于门牌号码或者车牌号码(少量字符, 且每个字符之间可以看作是独立); 


2、RNN/LSTM/GRU + CTC, 该方法最早由Alex Graves在06年提出应用于语音识别。优点是可以产生任意长度的文字,并且模型的性质决定了它有能力学到文字于文字之间的联系。缺点是计算效率较CNN低。


3、attention-mechanism,attention可以分为hard attention和soft attention. 其中hard attention能够直接给出hard location,通常是bounding box的位置,优点是直观,缺点是不能直接bp。soft attention通常是rnn/lstm/gru encoder-decoder model可以bp。

  • 6
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值