Windows10安装使用tesseract_ocr及配置问题解决

基本思想:通过tesseract_ocr完成一项字符识别任务,和paddle_ocr做了对比后,分析本项目后试试tesseract_ocr效果

1、安装tesseract

Ubuntu

sudo apt-get install tesseract-ocr

Mac

brew install tesseract

Windows

tesseract 下载地址:https://digi.bib.uni-mannheim.de/tesseract/

 

1.1  在安装的过程中,安装的路径一般是:
C:\Program Files\Tesseract-OCR,可以按照自己熟悉路径修改

2.2 然后一直点击next,直到下面下面这张图。此时可以勾选 Additional language data(download) 选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,比如可以选择math,英文,中文等。然后一路点击Next按钮即可

 

2、配置环境变量

2.1 为了在全局使用方便,比如安装路径为:
D:\Tesseract-OCR,将该路径添加到环境变量的path中。

2.2  路径:高级系统设置——>环境变量——>系统变量中path路径——>将 D:\Tesseract-OCR 添加进去。

2.3 配置完成后在cmd中输入 tesseract -v,如果出现如下图所示,说明环境变量配置成功。

3、 终端出现的报错问题及解决方法

3.1 测试图片 test01.jpg

3.2 使用cmd 先到图片当前路径,然后使用tesseract命令进行测试

tesseract test.jpg result

这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result 为结果保存的目标文件名称。

3.3 输入上述代码回车后,出现了以下的报错提示.

Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

3.4 报错是意思是缺少环境变量 TESSDATA_PREFIX,导致无法加载任何语言,就不能初始化tesseract。解决的方法也很简单,在环境变量——>系统变量中添加TESSDATA_PREFIX,如下图:
注(地址复制时是右斜杠 “\”,但是需要改成 左斜杠"/" 符号,如下图划红线处)

 3.5 配置完成后,重新打开cmd,重新运行。

 3.6 测试数字识别

tesseract example.jpg stdout digits

 

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Tesseract是一款开源的OCR引擎,可用于将图像中的文本转换为可编辑的文本格式。以下是关于Tesseract安装使用配置的一些建议: 1. 安装Tesseract Tesseract可在Windows、Mac OS X和Linux操作系统上运行。您可以从Tesseract的官方网站上下载相应的安装包或源代码。如果您使用的是Linux操作系统,可以使用以下命令安装Tesseract: Ubuntu/Debian: ``` sudo apt-get update sudo apt-get install tesseract-ocr ``` CentOS/Fedora: ``` sudo yum install tesseract ``` 2. 使用Tesseract 安装完成后,您可以使用Tesseract进行OCR识别。以下是使用Tesseract进行简单OCR识别的示例代码: ```python import pytesseract from PIL import Image img = Image.open('test.png') text = pytesseract.image_to_string(img, lang='eng') print(text) ``` 3. 配置Tesseract语言包 Tesseract支持多种语言,您可以通过安装相应的语言包来扩展Tesseract的识别能力。您可以从Tesseract的官方网站上下载语言包或使用下面的命令安装语言包: Ubuntu/Debian: ``` sudo apt-get install tesseract-ocr-[lang] ``` 例如,要安装法语语言包,可以运行以下命令: ``` sudo apt-get install tesseract-ocr-fra ``` CentOS/Fedora: ``` sudo yum install tesseract-langpack-[lang] ``` 例如,要安装法语语言包,可以运行以下命令: ``` sudo yum install tesseract-langpack-fra ``` 安装完成后,您可以使用以下代码来指定语言进行OCR识别: ```python import pytesseract from PIL import Image img = Image.open('test.png') text = pytesseract.image_to_string(img, lang='fra') print(text) ``` 以上是Tesseract安装使用配置的一些建议,希望能帮助到您!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值