【逐步实操】Tesseract OCR 最新版本安装教程（Windows）+ 图片PDF转WORD实操

yurous

已于 2024-05-31 15:13:59 修改

阅读量1.5w

点赞数 30

文章标签： ocr windows pdf 自然语言处理 nlp

于 2024-05-30 21:39:36 首次发布

本文链接：https://blog.csdn.net/weixin_45666317/article/details/139334916

版权

在文本挖掘领域，少不了对PDF文件进行处理的，其中有不少PDF里面可能是单纯的图片，这个时候就需要采用OCR技术进行图像文字识别。今天发布一版将图片PDF转为WORD文字的教程，首先需要安装并且配置好Tesseract OCR工具。下面展开详细教程。
（一）Tesseract OCR工具安装
1、首先下载安装包
安装包下载地址：https://digi.bib.uni-mannheim.de/tesseract/
安装包版本为：tesseract-ocr-w64-setup-5.3.4.20240503.exe
在这里插入图片描述
下载下来后就是一个.exe可执行文件（就不需要github上下载二进制文件然后进行一系列操作啦）

2、双击.exe可执行文件进行本地安装
一步步选择就行啦

（可以看到上图我把语言包选择了，选择这个选项能够把目前OCR所有能识别的语言都下载好，搭了梯子会稍微快一些，没有搭梯子建议不勾选，然后采用这个参考链接里的方法单独下载语言包https://www.jianshu.com/p/f7cb0b3f337a）
在这里插入图片描述
（选择好目标文件夹之后就是缓慢的安装过程啦）
3、配置系统环境
设置-高级系统设置-环境变量-PATH
在PATH里面新建刚才下载的目标文件夹的路径，我的是D盘

4、验证是否下载并配置成功
win+R输入cmd，在命令行中输入