全面解析：使用Python实现Docx转Pdf及PDF OCR处理的自动化流程（附完整代码）

本文链接：https://blog.csdn.net/yaoyihe/article/details/144252013

在数字化办公环境中，文档格式转换与内容提取是日常工作中经常遇到的需求。本文将详细介绍如何使用Python构建一个自动化流程，实现从.docx文件转换为.pdf，然后对.pdf文件进行OCR（光学字符识别）处理，最终将识别结果保存为Word文档。整个流程涵盖了文件转换、图像处理、OCR识别和结果整理等多个步骤，适用于需要批量处理文档的场景。

项目概述

本项目旨在自动化处理文档转换与内容提取的流程，具体步骤如下：

Docx转Pdf：使用LibreOffice将.docx文件转换为.pdf格式。
Pdf转图片：将转换后的.pdf文件的每一页渲染为高质量的PNG图片。
OCR识别：利用PaddleOCR对每一页的PNG图片进行文字识别。
结果整理：将OCR识别的文字内容汇总并保存为新的Word文档。
文件管理：自动移动和清理中间生成的文件，保持工作目录整洁。

环境准备

在开始之前，需要确保系统中安装了以下工具和库：

必要工具

Python 3.6+
LibreOffice：用于文档格式转换。

安装LibreOffice

根据操作系统的不同，可以通过以下方式安装LibreOffice：

Ubuntu/Debian:

sudo apt-get update
sudo apt-get install libreoffice

MacOS:
```
brew install --cask libreoffice
```
Windows: 下载并安装LibreOffice：LibreOffice下载

安装Python库

使用pip安装所需的Python库：

pip install PyMuPDF tqdm paddleocr python-docx

注意：PaddleOCR可能需要更多的依赖，建议参考PaddleOCR官方文档进行详细安装。

代码结构解析

本项目包含两个主要的Python脚本：

doc_to_pdf.py：负责将.docx文件转换为.pdf。
pdf.py：负责处理.pdf文件，包括转换为图片、OCR识别和结果保存。

1. Docx转Pdf (doc_to_pdf.py)

# doc_to_pdf.py
import subprocess
import os

def docx_to_pdf(docx_path, output_dir):
    """
    使用 LibreOffice 将 .docx 文件转换为 .pdf

    :param docx_path: .docx 文件的路径
    :param output_dir: 输出 .pdf 文件的目录
    """
    # 确保输出目录存在
    os.makedirs(output_dir, exist_ok=True)
    
    # 调用 LibreOffice 命令行进行转换
    command = [
        'libreoffice', '--headless', '--convert-to', 'pdf', docx_path, '--outdir', output_dir
    ]
    subprocess.run(command, check