PyPDF2/分割PDF文件

最新推荐文章于 2024-11-05 02:52:16 发布

农夫999

最新推荐文章于 2024-11-05 02:52:16 发布

阅读量599

点赞数 9

文章标签： pdf 前端

本文链接：https://blog.csdn.net/weixin_51931794/article/details/135552017

版权

该文章介绍了如何使用Python的PyPDF2库编写一个函数，将大型PDF文件分割成多个小文件，每份包含指定数量的页面，便于管理和分发文件的特定部分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这段代码的核心功能是将一个PDF文件分割成多个较小的PDF文件，每个文件包含指定数量的页面。这个功能对于处理大型PDF文件非常有用，尤其是当需要单独处理或分发文件的特定部分时。

import os
from PyPDF2 import PdfReader, PdfWriter

def split_pdf(file_path, pages_per_file):
    # 打开原始PDF文件
    with open(file_path, 'rb') as infile:
        reader = PdfReader(infile)
        total_pages = len(reader.pages)

        # 创建与原文件同名的新文件夹
        file_dir, file_name = os.path.split(file_path)
        file_base, file_ext = os.path.splitext(file_name)
        new_folder_path = os.path.join(file_dir, file_base)
        if not os.path.exists(new_folder_path):
            os.makedirs(new_folder_path)

        # 分割PDF
        for start_page in range(0, total_pages, pages_per_file):
            writer = PdfWriter()
            end_page = min(start_page + pages_per_file, total_pages)

            for page in range(start_page, end_page):
                writer.add_page(reader.pages[page])

            output_filename = os.path.join(new_folder_path, f"{file_base}_{start_page // pages_per_file + 1}{file_ext}")

            with open(output_filename, 'wb') as outfile:
                writer.write(outfile)

# 使用示例
split_pdf(r"D:wenjian临时斗破苍穹.pdf", 500)  # 这里5是每个分割文件的页面数

代码解析

函数定义: split_pdf(file_path, pages_per_file): 这个函数用于分割PDF文件。它接受两个参数：PDF文件的路径（file_path）和每个分割文件中应包含的页面数（pages_per_file）。
打开原始PDF文件: 使用PdfReader从PyPDF2库中读取PDF文件。
创建新文件夹: 从原文件路径提取文件名和目录。在原文件所在的目录中创建一个新的文件夹，以存放分割后的PDF文件。
分割PDF文件: 使用循环，每次迭代处理pages_per_file指定的页面数。对于每个分割文件，使用PdfWriter创建一个新的PDF文件，并添加相应的页面。每个分割文件以原文件名开始，并附加一个基于其在原文件中位置的编号。
写入分割文件: 将分割后的PDF内容写入新文件