一、安装以及配置环境变量
1.1安装
- 下载网址:https://digi.bib.uni-mannheim.de/tesseract/ (最好选择高版本)
选择图片需要识别的语言
可以用默认的,也可以用其他的,有的低版本默认路径中有空格的最好不要使用,配置环境时容易出错。比如C1.2配置环境
此处以win10作例子
此电脑——属性———高级系统设置——环境变量
1.选择“系统变量”中的“Path”,点击编辑
2.点击新建;输入tesseract的安装目录,点击确定
3.
一直确定结束。
1.3检查是否成功
打开cmd
输入 tesseract -v
出现上图信息,说明配置成功。
1.4试一哈
打开cmd
输入 tesseract test.png result
test.png为要识别的图片,图片文件如果在命令行的盘中,可以直接写名字,不然要加上路径或者转到图片文件所在的盘,result为输出的txt文件
如上图就是识别成功
如果出现错误:
Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory.
Failed loading language ‘eng’
Tesseract couldn’t load any languages!
Could not initialize tesseract.
输入指令:
SET TESSDATA_PREFIX=D:\tesseract\tessdata
再输入识别指令就可以成功了
二、在pyhton中调用tesseract
#报错1
'Error opening data file D:\\tesseract\\tessdata;/chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.'
import pytesseract
from PIL import Image
#定义一个配置tessdata_dir_config),不定义的话会有报错1.
tessdata_dir_config = '--tessdata-dir "D:\\tesseract\\tessdata"'
image = Image.open('D:/test.png')
text = pytesseract.image_to_string(image, lang='chi_sim', config=tessdata_dir_config)
print(text)
#报错2
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
出现报错2
需要在pytesseract.py中进行改动
pytesseract一般在python目录中,例如E:\python3\Lib\site-packages\pytesseract
在pycharm中打开后,
将第32行改为tesseract_cmd = r’D:\tesseract\tesseract.exe’