tesseract_ocr 字符识别基础及训练字库、合并字库

最新推荐文章于 2024-09-04 17:05:08 发布

燕燕于飞我是燕

最新推荐文章于 2024-09-04 17:05:08 发布

阅读量3.6w

点赞数 16

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/why200981317/article/details/48265621

版权

本文介绍了如何使用tesseract_ocr进行文字识别，并详细讲解了训练自定义字库的过程，包括使用jTessBoxEditor调整识别结果、生成.tr文件、计算字符集、创建特征文件和合并字典等步骤，以提高识别准确率。

摘要由CSDN通过智能技术生成

最近公司让我做文字串识别，通过查阅资料，谷歌的开源框架 tesseract-ocr可以帮助我们进行识别图像，文字等等，tesseract可以识别多种语言(一些常用的语言)，多种图片格式，非常强大。

首先体验一下tesseract的强大功能，先安装 tesseract_ocr ,下载地址为http://code.google.com/p/tesseract-ocr/，请务必下载3.0.1版本，我前面下的最新3.0.2版本，生成字符特征命令不能通过，最后勉强解决了，生成的字典识别出来的都是空字符

安装完成之后看下根目录

tessdata文件夹主要存放字典文件，只要把字典文件放进去，就可以用tesseract 识别相关语言的文字

现在先来识别一张图片

把他放入任意一个文件夹，cmd 命令cd到图片放置的目录，然后执行

 tesseract 1.jpg 1

可以看到文件夹下生成了一个txt文本，发现识别的效果并不是很理想。为啥呢，因为我所用的这个图片中的字有所变形，我们的图片和 tesseract 存在的字做匹配，找相近的，但是字典中没有这种变形的字体，自然识别容易出错，为了提高识别率，所以我们需要训练一套字体来提高识别率

训练字库还需要一个工具jTessBoxEditor，下载地址为 http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

现在我们来实战一下，首先要生成一个 .tif 的图片集，我们使用

最低0.47元/天解锁文章

燕燕于飞我是燕

关注

16
点赞
踩
51

收藏

觉得还不错? 一键收藏
19
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 19

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。