tesseract文字识别技术
首先,下载tesseract-ocr
其次,安装(注意选择你要识别的语言库,虽然事后自己也能从官网下载)
下载完成后就是最令人头疼的环境变量的配置
1.首先,右击 此电脑,打开 高级系统设置
2.点击 环境变量
3.找到path,点击,并新建一个path,这个新建的path,必须是以你安装tesseract的目录(比如我的安装目录是:C:\Program Files (x86)\tesseract)
4.在系统变量中,新建一个 TESSDATA_PREFIX 的变量,并且把tessdata的目录写进去(比如我的是:C:\Program Files (x86)\tesseract\tessdata)
但是,值得注意的是,图片中大家可以看到,我的TESSDATA_PREFIX的变量值并没有准确写到tessdata(C:\Program Files (x86)\tesseract\tessdata并没有把这个写入),是因为TESSDATA_PREFIX是指包含tessdata的目录,即TESSDATA_PREFIX它所需要的是tessdata的上级目录。详情参考此文
5.重启电脑,打开cmd运行
当然,故事不止于此…
tesseract在python的应用
1.首先,
pip install pytesseract
如果下载太慢,尝试
pip install 包名 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
2.pytesseract,使用时会有几种崩溃
(比如:pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file C:\Program Files (x86)\Tesseract-OCR;/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory. Failed loading language ‘eng’ Tesseract couldn’t load any languages! Could not initialize tesseract.’),
但最终解决办法也就两种。
-first,打开pycharm报错的那个文件,找到pytesseract开头的那句代码
tesseract_cmd ='tesseract'
修改成tesseract.exe的目录
tesseract_cmd ='C:\\Program Files (x86)\\tesseract\\tesseract.exe'
以上是一种方法。
-second,配置中指定tessdata-dir
在代码中添加
pytesseract.pytesseract.tesseract_cmd = 'c://Program Files (x86)//Tesseract-OCR//tesseract.exe'
tessdata_dir_config = '--tessdata-dir "c://Program Files (x86)//Tesseract-OCR//tessdata"'
然后,在指定的image_to_string配置下
image_to_string(image, lang = 'eng', config=tessdata_dir_config)
最后,百度了一下环境变量的作用。
环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所将使用到的信息。例如Windows和DOS操作系统中的path环境变量,当要求系统运行一个程序而没有告诉它程序所在的完整路径时,系统除了在当前目录下面寻找此程序外,还应到path中指定的路径去找。用户通过设置环境变量,来更好的运行进程。
也就是说:
不知道我理解的对不对,但似乎是这么个意思,有不同看法的,或者指正的评论留言,一起学习。
这个破问题消耗了我很多天的时间,希望可以帮到大家。
https://blog.csdn.net/weixin_30480651/article/details/98203183
https://www.jianshu.com/p/f3b054dbf798