一、Tesseract-OCR安装
1、tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/
2、双击exe进行安装,同意协议并继续。
勾选Additional language data(download)选项支持识别的语言包。
安装完成
3、配置环境变量,在path里面添加Tesseract-OCR的安装目录。
4、并且增加系统环境变量TESSDATA_PREFIX 变量值中的路径为D:\install\tesseract-ocr-v4.0.0\Tesseract-OCR\tessdata
在CMD里面验证,是否安装成功,输入tesseract -v,出现以下信息则表示安装成功。
5、在python里面使用tesseract。安装pytesseract。
pip install pytesseract
6、安装 Python Imaging Library (PIL) 工具包
python -m pip install --upgrade Pillow
7、中文语言包下载
Tesseract中文语言包 chi_sim.traineddata
二、tesseract常见错误总结:
1、出现以下错误:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.
解决方法:
需要修改 C:\Python35\Lib\site-packages\pytesseract下的 pytesseract.py 文件。
修改pytesseract.py文件里的tesseract_cmd值。
tesseract_cmd = r'D:\tesseract-ocr\tesseract.exe'