用 Python 玩转 PDF，实现办公自动化

最新推荐文章于 2024-07-05 18:32:27 发布

苏卡不列-python

最新推荐文章于 2024-07-05 18:32:27 发布

阅读量348

点赞数

分类专栏： Python 文章标签： python pdf 自动化自动化办公 excel

本文链接：https://blog.csdn.net/weixin_67991858/article/details/129322641

版权

本文介绍了如何使用Python的PyPDF2和pdfplumber库进行PDF的批量拆分、合并、提取文字和表格内容，以及转换为图片。通过实例展示了如何提取PDF中的图片，加密、解密文档，以及添加水印。此外，还提供了Python学习资源和实战案例。

摘要由CSDN通过智能技术生成

1. 相关介绍

Python 操作 PDF 会用到两个库，分别是：PyPDF2 和 pdfplumber

其中 PyPDF2 可以更好的读取、写入、分割、合并PDF文件，而 pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格

对应的官网分别是：

PyPDF2：https://pythonhosted.org/PyPDF2/
pdfplumber：https://github.com/jsvine/pdfplumber

由于这两个库都不是 Python 的标准库，所以在使用之前都需要单独安装

win+r 后输入 cmd 打开 command 窗口，依次输入如下命令进行安装：

pip install PyPDF2
pip install pdfplumber

安装完成后显示 success 则表示安装成功

2. 批量拆分

将一个完整的 PDF 拆分成几个小的 PDF，因为主要涉及到 PDF 整体的操作，所以本小节需要用到 PyPDF2 这个库

拆分的大概思路如下：

读取 PDF 的整体信息、总页数等
遍历每一页内容，以每个 step 为间隔将 PDF 存成每一个小的文件块
将小的文件块重新保存为新的 PDF 文件

需要注意的是，在拆分的过程中，可以手动设置间隔，例如：每5页保存成一个小的 PDF 文件

拆分的代码如下：

import os
from PyPDF2 import PdfFileWriter, PdfFileReader

def split_pdf(filename, filepath, save_dirpath, step=5):
    """
    拆分PDF为多个小的PDF文件，
    @param filename:文件名
    @param filepath:文件路径
    @param save_dirpath:保存小的PDF的文件路径
    @param step: 每step间隔的页面生成一个文件，例如step=5，表示0-4页、5-9页...为一个文件
    @return:
    """
    if not os.path.exists(save_dirpath):
        os.mkdir(save_dirpath)
    pdf_reader = PdfFileReader(filepath)
    # 读取每一页的数据
    pages = pdf_reader.getNumPages()
    for page in range(0, pages, step):
        pdf_writer = PdfFileWriter()
        # 拆分pdf，每 step 页的拆分为一个文件
        for index in range(page, page+step):
            if index < pages:
                pdf_writer.addPage(pdf_reader.getPage(index))
        # 保存拆分后的小文件
        save_path = os.path.join(save_dirpath, filename+str(int(page/step)+1)+'.pdf')
        print(save_path)
        with open(save_path, "wb") as out:
            pdf_writer.write(out)

    print("文件已成功拆分，保存路径为："+save_dirpath)
    
split_pdf(filename, filepath, save_dirpath, step=5)

以“易方达中小盘混合型证券投资基金2020年中期报告”为例，整个 PDF 文件一共 46 页，每5页为间隔，最终生成了10个小的 PDF 文件

3. 批量合并

比起拆分来，合并的思路更加简单：

确定要合并的 文件顺序
循环追加到一个文件块中
保存成一个新的文件

对应的代码比较简单：

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

def concat_pdf(filename, read_dirpath, save_filepath):
    """
    合并多个PDF文件
    @param filename:文件名
    @param read_dirpath:要合并的PDF目录
    @param save_filepath:合并后的PDF文件路径
    @return:
    """
    pdf_writer =

最低0.47元/天解锁文章

苏卡不列-python

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
用 Python 玩转 PDF，实现办公自动化

Python 操作 PDF 会用到两个库，分别是：PyPDF2 和 pdfplumber其中可以更好的读取、写入、分割、合并PDF文件，而可以更好的读取 PDF 文件中内容和提取 PDF 中的表格由于这两个库都不是 Python 的标准库，所以在使用之前都需要单独安装安装完成后显示 success 则表示安装成功。
复制链接

扫一扫