OCR文字识别app的实现（教程详细，适用于新手）

灯火阑珊ya

已于 2023-04-02 18:13:58 修改

阅读量819

点赞数

分类专栏： OCR文字识别的实现文章标签：深度学习人工智能

于 2023-03-10 09:46:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46117362/article/details/129418325

版权

OCR文字识别的实现专栏收录该内容

1 篇文章

订阅专栏

OCR技术的主流模型有CNN+softmax，CNN+RNN+CTC,CNN+attention等等，这些模型都是基于深度学习的方法，能够有效的识别文字。

如何从图像中提取文本呢？
- 检测到文字所在位置（CTPN）：Connectionist Text Proposal Network.文本检测本质上也属于物体检测，但是文本却跟常规的物体有较大区别。
  - 文本通常都是从左往右写的（水平方向），并且字之间的宽度都大致相同。
  - 固定宽度，来检测文本高度即可，但是如何应对变长序列呢？
  - 本质上还是RPN方法（可参考faster-rcnn）,可将检测到的框拼在一起。
- 识别文本区域内容（CRNN）。

基于我对CNN+RNN+CTC（CRNN+CTC）模型的了解，我选择了百度飞桨paddleOCR来实现一个文字识别app。（哈哈，这个结局没想到吧）

step1:先配置paddleOCR的实现环境
参考链接：https://www.paddlepaddle.org.cn/documentation/docs/zh/install/index_cn.html
https://blog.csdn.net/David_B/article/details/113576999
以上链接中着重关注一下GPU的下载指令，很复杂的文字识别图像能感觉到GPU处理速度比CPU明显快。
step2:pycharm试试python代码

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。