【逐步实操】Tesseract OCR 最新版本安装教程(Windows)+ 图片PDF转WORD实操

在文本挖掘领域,少不了对PDF文件进行处理的,其中有不少PDF里面可能是单纯的图片,这个时候就需要采用OCR技术进行图像文字识别。今天发布一版将图片PDF转为WORD文字的教程,首先需要安装并且配置好Tesseract OCR工具。下面展开详细教程。
(一)Tesseract OCR工具安装
1、首先下载安装包
安装包下载地址:https://digi.bib.uni-mannheim.de/tesseract/
安装包版本为:tesseract-ocr-w64-setup-5.3.4.20240503.exe
在这里插入图片描述
下载下来后就是一个.exe可执行文件(就不需要github上下载二进制文件然后进行一系列操作啦)
在这里插入图片描述
2、双击.exe可执行文件进行本地安装
一步步选择就行啦
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(可以看到上图我把语言包选择了,选择这个选项能够把目前OCR所有能识别的语言都下载好,搭了梯子会稍微快一些,没有搭梯子建议不勾选,然后采用这个参考链接里的方法单独下载语言包https://www.jianshu.com/p/f7cb0b3f337a
在这里插入图片描述
(选择好目标文件夹之后就是缓慢的安装过程啦)
3、配置系统环境
设置-高级系统设置-环境变量-PATH
在PATH里面新建刚才下载的目标文件夹的路径,我的是D盘
在这里插入图片描述
4、验证是否下载并配置成功
win+R输入cmd,在命令行中输入

tesseract -v

出现下图的结果就说明成功啦
在这里插入图片描述
可以再输入下面指令看看语言包

tesseract --list-langs

在这里插入图片描述
(二)图片PDF转WORD实操
接下来在Python中运行下述代码(首先自行安装好这些扩展包哦)

import os
import fitz  # PyMuPDF
from PIL import Image
import pytesseract
from docx import Document

# 设置Tesseract可执行文件的路径
pytesseract.pytesseract.tesseract_cmd = r'D:\Tesseract-OCR\tesseract.exe'


def pdf_to_images(pdf_path):
    """ 将PDF每一页转换为图片 """
    doc = fitz.open(pdf_path)
    images = []
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        pix = page.get_pixmap()
        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
        images.append(img)
    return images


def images_to_text(images):
    """ 通过OCR将图片转换为文本 """
    texts = []
    for img in images:
        text = pytesseract.image_to_string(img, lang='chi_sim')  # 使用简体中文语言包
        texts.append(text)
    return texts


def save_text_to_word(texts, output_path):
    """ 将文本保存到Word文件 """
    doc = Document()
    for text in texts:
        doc.add_paragraph(text)
    doc.save(output_path)


def convert_pdf_to_word(pdf_path, word_path):
    # 将PDF每页转换为图片
    images = pdf_to_images(pdf_path)
    # 通过OCR将图片转换为文本
    texts = images_to_text(images)
    # 将文本保存到Word文件
    save_text_to_word(texts, word_path)


def batch_convert_pdf_to_word(input_dir, output_dir):
    # 确保输出目录存在
    os.makedirs(output_dir, exist_ok=True)

    for filename in os.listdir(input_dir):
        if filename.endswith(".pdf"):
            pdf_path = os.path.join(input_dir, filename)
            word_filename = filename.replace(".pdf", ".docx")
            word_path = os.path.join(output_dir, word_filename)
            convert_pdf_to_word(pdf_path, word_path)
            print(f"Converted {pdf_path} to {word_path}")


if __name__ == '__main__':
    # 输入PDF文件所在的目录
    input_dir = r'E:\pythonProject\图片pdf'
    # 输出Word文件所在的目录
    output_dir = r'E:\pythonProject\output'
    batch_convert_pdf_to_word(input_dir, output_dir)

以上代码可以实现批量的将图片PDF文件转为WORD文件~
只需要把PDF文件放在“图片pdf”文件夹下,在“output”就能输出识别好的WORD啦!

  • 8
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yurous

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值