tesseract windows环境下安装常见问题及解决

最新推荐文章于 2023-11-17 00:48:34 发布

repoman_

最新推荐文章于 2023-11-17 00:48:34 发布

阅读量4.1k

点赞数 6

分类专栏： tesseract python 文章标签： python tesseract

本文链接：https://blog.csdn.net/wuxianbing2012/article/details/105198525

版权

python 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

tesseract

1 篇文章 0 订阅

订阅专栏

在学习python网络数据采集一书中，学习到11章——图片处理时，作者介绍了tesseract-ocr光学文字识别这一内容，随后在安装该工具的过程中遇到了很多的问题，在这里将其全部罗列出来，供读者参考。

1.安装tesseract
tesseract不是python的库文件，因此需要从网上下载安装，安装文件下载请点这里，进入网页后，根据需要选择高亮的蓝色字体进行下载，下载后按默认安装即可。

2.配置tesseract的环境变量
tesseract实际上是在windows命令行模式下使用的工具，因此需要配置其环境变量。配置方法如下：打开我的电脑属性——更改设置——高级——环境变量，在系统变量中添加tesseract的路径。

win+R输入cmd打开命令行工具，输入tesseract -v，出现如下说明即配置成功

3、TESSDATA_PREFIX变量设置

到这一步环境变量配置完成，但是此时直接使用tesseract对图片进行识别会提示错误

例如，在cmd窗口中使用命令tesseract 1.jpg res

出现如下的错误提示

Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

主要原因在于没有设置TESSDATA_PREFIX变量，同样在环境变量中添加该变量可解决问题

4、命令行使用注意点

tesseract的命令格式为 tesseract image.(jpg,png...) res 其中res为最后的输出，默认为txt文件

注意的是在命令行中，image文件应该在执行该命令的文件夹中，否则会报错，显示

Error in fopenReadStream: file not found
Error in findFileFormat: image file not found
Error during processing.

因此，要么cd到图片文件的目录下，要么将图片所在位置完整给出，如C:1\2\image.jpg

repoman_

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
tesseract windows环境下安装常见问题及解决

在学习python网络数据采集一书中，学习到11章——图片处理时，作者介绍了tesseract-ocr光学文字识别这一内容，随后在安装该工具的过程中遇到了很多的问题，在这里将其全部罗列出来，供读者参考。1.安装tesseracttesseract不是python的库文件，因此需要从网上下载安装，安装文件下载请点这里，进入网页后，根据需要选择高亮的蓝色字体进行下载...
复制链接

扫一扫