前置环境
-
windows 10 操作系统
-
tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe
安装路径在C:\Program Files\Tesseract-OCR -
tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
安装方法:pip install ./tesserocr-2.4.0-cp37-cp37m-win_amd64.whl (此文件的相对路径或绝对路径)
下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases -
Pillow
pip install -i https://pypi.douban.com/simple Pillow
-
可能需要将 tessdata 目录复制到 Python 环境的 Scripts 目录下或配置到环境变量中
配置环境变量示例
在系统变量Path中新建路径
C:\Program Files\Tesseract-OCR
%TESSDATA_PREFIX%
%TESSDATA_PREFIX%\tessdata
示例代码
# coding: utf-8
"""
@time: 2020/1/7 19:27
"""
import tesserocr
from PIL import Image
image = Image.open('code.jpeg')
result = tesserocr.image_to_text(image)
print(result)
报错如下 RuntimeError: Failed to init API, possibly an invalid tessdata path: C:\Program Files (x86)\Tesseract-OCR\
Traceback (most recent call last):
File "E:/github/code/t1_demo.py", line 10, in <module>
result = tesserocr.image_to_text(image)
File "tesserocr.pyx", line 2443, in tesserocr._tesserocr.image_to_text
RuntimeError: Failed to init API, possibly an invalid tessdata path: C:\Program Files (x86)\Tesseract-OCR\
参考解决方法
先找到我们安装的 Tesseract_OCR 的 tessdata 的目录,将里面的文件全选复制
我安装的位置是C:\Program Files\Tesseract-OCR
下的 tessdata目录
报错位置(根据个人报错情况而定)是 C:\Program Files (x86)\Tesseract-OCR\
就粘贴到这里来
注意这里不是将tessdata目录复制,而是里面的内容
,
注意这里不是将tessdata目录复制,而是里面的内容
,
注意这里不是将tessdata目录复制,而是里面的内容
, 这样就 ok 啦!
开始直接将 tessdata 目录复制过来, 没有效果!!!
重新运行示例代码,可以正常显示图片的验证码了。
参考文档
tesserocr库下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases
tesseract-ocr版本下载1:https://digi.bib.uni-mannheim.de/tesseract/
tesseract-ocr版本下载2:https://github.com/tesseract-ocr/tesseract