在学习python网络数据采集一书中,学习到11章——图片处理时,作者介绍了tesseract-ocr光学文字识别这一内容,随后在安装该工具的过程中遇到了很多的问题,在这里将其全部罗列出来,供读者参考。
1.下载
- 下载地址:链接: https://pan.baidu.com/s/11TBKT_H_z0mRrDGxFKvJPQ 密码: qj74
下载后按默认下一步安装即可
2.配置环境变量
- esseract实际上是在windows命令行模式下使用的工具,因此需要配置其环境变量。配置方法如下:打开我的电脑属性——更改设置——高级——环境变量,在系统变量中添加tesseract的路径。
- win+R输入cmd打开命令行工具,输入tesseract -v,出现如下说明即配置成功
3、TESSDATA_PREFIX变量设置
- 到这一步环境变量配置完成,但是此时直接使用tesseract对图片进行识别会提示错误
例如,在cmd窗口中使用命令tesseract 1.jpg res
出现如下的错误提示
Error ope