用来图像识别pytesseract,tesseract的相关问题和方法

tesseract文字识别技术

首先,下载tesseract-ocr
其次,安装(注意选择你要识别的语言库,虽然事后自己也能从官网下载)
在这里插入图片描述
下载完成后就是最令人头疼的环境变量的配置

1.首先,右击 此电脑,打开 高级系统设置在这里插入图片描述
2.点击 环境变量在这里插入图片描述
3.找到path,点击,并新建一个path,这个新建的path,必须是以你安装tesseract的目录(比如我的安装目录是:‪C:\Program Files (x86)\tesseract)在这里插入图片描述
4.在系统变量中,新建一个 TESSDATA_PREFIX 的变量,并且把tessdata的目录写进去(比如我的是:‪C:\Program Files (x86)\tesseract\tessdata)在这里插入图片描述
但是,值得注意的是,图片中大家可以看到,我的TESSDATA_PREFIX的变量值并没有准确写到tessdata(‪C:\Program Files (x86)\tesseract\tessdata并没有把这个写入),是因为TESSDATA_PREFIX是指包含tessdata的目录,即TESSDATA_PREFIX它所需要的是tessdata的上级目录。详情参考此文

5.重启电脑,打开cmd运行

在这里插入图片描述
在这里插入图片描述
当然,故事不止于此…

tesseract在python的应用

1.首先

pip install pytesseract

如果下载太慢,尝试

pip install 包名 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

2.pytesseract,使用时会有几种崩溃
(比如:pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file C:\Program Files (x86)\Tesseract-OCR;/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory. Failed loading language ‘eng’ Tesseract couldn’t load any languages! Could not initialize tesseract.’),
但最终解决办法也就两种。

-first,打开pycharm报错的那个文件,找到pytesseract开头的那句代码

tesseract_cmd ='tesseract'

修改成tesseract.exe的目录

tesseract_cmd ='C:\\Program Files (x86)\\tesseract\\tesseract.exe'

以上是一种方法。

-second,配置中指定tessdata-dir

在代码中添加

pytesseract.pytesseract.tesseract_cmd = 'c://Program Files (x86)//Tesseract-OCR//tesseract.exe'
tessdata_dir_config = '--tessdata-dir "c://Program Files (x86)//Tesseract-OCR//tessdata"'

然后,在指定的image_to_string配置下

image_to_string(image, lang = 'eng', config=tessdata_dir_config)

了解更多请参考

最后,百度了一下环境变量的作用。

环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所将使用到的信息。例如Windows和DOS操作系统中的path环境变量,当要求系统运行一个程序而没有告诉它程序所在的完整路径时,系统除了在当前目录下面寻找此程序外,还应到path中指定的路径去找。用户通过设置环境变量,来更好的运行进程。

也就是说:在这里插入图片描述
不知道我理解的对不对,但似乎是这么个意思,有不同看法的,或者指正的评论留言,一起学习。

这个破问题消耗了我很多天的时间,希望可以帮到大家。

https://blog.csdn.net/weixin_30480651/article/details/98203183
https://www.jianshu.com/p/f3b054dbf798

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值