tesseract windows环境下安装常见问题及解决

       在学习python网络数据采集一书中,学习到11章——图片处理时,作者介绍了tesseract-ocr光学文字识别这一内容,随后在安装该工具的过程中遇到了很多的问题,在这里将其全部罗列出来,供读者参考。

1.安装tesseract
        tesseract不是python的库文件,因此需要从网上下载安装,安装文件下载请点这里,进入网页后,根据需要选择高亮的蓝色字体进行下载,下载后按默认安装即可。

2.配置tesseract的环境变量
    tesseract实际上是在windows命令行模式下使用的工具,因此需要配置其环境变量。配置方法如下:打开我的电脑属性——更改设置——高级——环境变量,在系统变量中添加tesseract的路径。

win+R输入cmd打开命令行工具,输入tesseract -v,出现如下说明即配置成功

3、TESSDATA_PREFIX变量设置

到这一步环境变量配置完成,但是此时直接使用tesseract对图片进行识别会提示错误

例如,在cmd窗口中使用命令tesseract 1.jpg res

出现如下的错误提示

Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

主要原因在于没有设置TESSDATA_PREFIX变量,同样在环境变量中添加该变量可解决问题

4、命令行使用注意点

tesseract的命令格式为 tesseract image.(jpg,png...) res  其中res为最后的输出,默认为txt文件

注意的是在命令行中,image文件应该在执行该命令的文件夹中,否则会报错,显示

Error in fopenReadStream: file not found
Error in findFileFormat: image file not found
Error during processing.

因此,要么cd到图片文件的目录下,要么将图片所在位置完整给出,如C:1\2\image.jpg

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Tesseract是一款开源的OCR引擎,可用于将图像中的文本转换为可编辑的文本格式。以下是关于Tesseract安装、使用和配置的一些建议: 1. 安装Tesseract Tesseract可在Windows、Mac OS X和Linux操作系统上运行。您可以从Tesseract的官方网站上下载相应的安装包或源代码。如果您使用的是Linux操作系统,可以使用以下命令安装Tesseract: Ubuntu/Debian: ``` sudo apt-get update sudo apt-get install tesseract-ocr ``` CentOS/Fedora: ``` sudo yum install tesseract ``` 2. 使用Tesseract 安装完成后,您可以使用Tesseract进行OCR识别。以下是使用Tesseract进行简单OCR识别的示例代码: ```python import pytesseract from PIL import Image img = Image.open('test.png') text = pytesseract.image_to_string(img, lang='eng') print(text) ``` 3. 配置Tesseract语言包 Tesseract支持多种语言,您可以通过安装相应的语言包来扩展Tesseract的识别能力。您可以从Tesseract的官方网站上下载语言包或使用下面的命令安装语言包: Ubuntu/Debian: ``` sudo apt-get install tesseract-ocr-[lang] ``` 例如,要安装法语语言包,可以运行以下命令: ``` sudo apt-get install tesseract-ocr-fra ``` CentOS/Fedora: ``` sudo yum install tesseract-langpack-[lang] ``` 例如,要安装法语语言包,可以运行以下命令: ``` sudo yum install tesseract-langpack-fra ``` 安装完成后,您可以使用以下代码来指定语言进行OCR识别: ```python import pytesseract from PIL import Image img = Image.open('test.png') text = pytesseract.image_to_string(img, lang='fra') print(text) ``` 以上是Tesseract安装、使用和配置的一些建议,希望能帮助到您!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值