Python办公自动化之PDF(一)

VIP文章对许

已于 2024-03-09 17:38:33 修改

阅读量731

点赞数

分类专栏： # 自动化 # Python # 数据分析文章标签： python pdf

于 2023-09-18 22:25:07 首次发布

本文链接：https://blog.csdn.net/weixin_55629186/article/details/132998790

版权

Python操作PDF一

1、Python操作PDF概述

Python操作PDF主要有两个库：PyPDF2和PDFPlumber

PyPDF2是一个用于处理PDF文件的Python第三方库
- 官网文档参考：https://pypi.org/project/PyPDF2/
PDFPlumber是一个用于解析PDF文档的第三方库，可以解析、提取、转换PDF文档数据
- 官网文档参考：https://github.com/jsvine/pdfplumber

安装：

pip install PyPDF2
pip install pdfplumber

常用操作主要包括：拆分、合并、文字与表格提取、图片提取、添加水印、加密与解密等

2、批量拆分

操作步骤：

读取PDF的整体内容
遍历每一页，以step为间隔将PDF存成小文件块
将小文件块重新保存为新的PDF文件

import os
from PyPDF2 import PdfReader, PdfWriter

# filepath:读取文件路径  filename:保存文件的统一命名  dirpath:保存文件路径  step:每隔多少页生成一个文件
def split_pdf(filepath, dirpath, filename, step):
    # 创建保存目录
    if not os.path.exists(dirpath):
        os.mkdir(dirpath)
    pdf_reader = PdfReader(filepath)
    # 读取每一页的数据
    page_list = pdf_reader.pages
    pages = len(page_list)
    for page in range(0, pages, step):
        pdf_writer = PdfWriter()
        # 拆分pdf，每step页的拆分为一个文件，如step=5，表示0-4页、5-9页...各为一个文件
        for index in range(page, page + step):
            if index < pages:
                pdf_writer.add_page(page_list[index])
        # 保存拆分后的小文件
        save_path = os.path.join(dirpath, filename + str(int(page / step) + 1) + '.pdf')
        print(save_path)
        with open(save_path, "wb") as out:
            pdf_writer.write(out)
    print("保存路径: " + dirpath)

split_pdf(r'C:\Users\cc\Desktop\test.pdf', r'C:\Users\cc\Desktop\PDF', 'pdf_split_', step=2)

3、批量合并

操作步骤：

确定合并文件顺序
循环追加到一个文件块中
保存为一个新文件

# filepath:要合并的PDF文件目录  filename:原文件的统一命名  dirpath:合并后的保存路径
def concat_pdf(filepath, dirpath, filename):
    pdf_writer = PdfWriter()
    # ['pdf_split_1.pdf', 'pdf_split_2.pdf']
    list_filename = os.listdir(filepath)
    # 对文件进行排序
    list_filename.sort(key=lambda x: int(x[:-4].replace(filename, "")))
    for filename in list_filename:
        file_path = os.path.join(filepath, filename)
        print(file_path)
        # 读取文件并获取文件的页数
        pdf_reader = PdfReader(file_path)
        page_list = pdf_reader.page

最低0.47元/天解锁文章

对许

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python办公自动化之PDF(一)

Python操作PDF主要有两个库：PyPDF2和pdfplumberPyPDF2是一个用于处理PDF文件的Python第三方库pdfplumber是一个用于解析PDF文档的第三方库，可以解析、提取、转换PDF文档数据常用操作主要包括：拆分、合并、文字与表格提取、图片提取、添加水印、加密与解密等。
复制链接

扫一扫