一站式Python脚本：自动生成带目录和页脚的合并PDF文档

汐ya~

已于 2024-03-14 22:57:05 修改

阅读量724

点赞数 5

文章标签： python pdf java

于 2024-03-09 22:13:49 首次发布

本文链接：https://blog.csdn.net/weixin_66397563/article/details/136592237

版权

本文介绍了一个Python脚本，利用reportlab和PyPDF2库自动将指定文件夹内的多个PDF文件整合为一个PDF，添加自定义页脚和目录页，提高处理大量PDF文档的效率。

摘要由CSDN通过智能技术生成

一站式Python脚本：自动生成带目录和页脚的整合PDF文档

在处理大量PDF文档时，尤其是需要将它们整合成一个文件并添加统一页脚和目录时，手动操作不仅耗时还容易出错。本文介绍的Python脚本能够自动化这一流程，极大提升工作效率，非常适合学术研究、文档管理等需要处理大量PDF文件的场景。

作用：

将指定文件夹内的多个PDF文件整合成一个PDF文件，同时为每一页添加自定义的页脚（如页码），并在文档前添加一个包含所有原始PDF文件名作为标题的目录页。以下是详细的代码流程解释：

1. 创建页脚页面 (`create_footer_page` 函数)

使用reportlab库在一个空的PDF页面上绘制自定义文本作为页脚，文本位于页面底部中心位置。
为了确保新的页脚可以覆盖原有页码，首先绘制一个足够大的白色矩形来覆盖底部的区域，然后在该区域上添加文本。

2. 添加目录页到PDF (`add_catalog_page` 函数)

生成一个包含目录的PDF页面。目录页上会列出所有被整合PDF文件的标题（即文件名，去除了.pdf后缀）及其在最终PDF文件中的起始页码。
目录页处理长标题分行显示，确保标题不会超出页面边缘，并使用点线连接标题和页码，使目录易于阅读。

3. 读取并整合PDF文件

按照指定顺序 （可将特定文件置于首位） 读取文件夹内的所有PDF文件。
对于每个PDF文件，读取其全部页面，并记录其标题和起始页码用于生成目录页。

4. 创建并添加目录页

使用add_catalog_page函数生成目录页，并将此页添加到最终PDF文档的开头。

5. 添加页脚并整合所有页面

对于原始PDF文档中的每一页，使用create_footer_page函数创建一个包含页脚的页面，并将其与原始页面合并，以确保每一页都带有页脚信息。
将处理过的页面逐一添加到最终的PDF文档中。

6. 保存最终PDF文档

将所有处理后的页面（包括目录页和带页脚的原始页面）整合成一个新的PDF文件，并保存到指定的路径。

完整代码


import io
import os
import re

from PyPDF2 import PdfReader
from PyPDF2 import PdfWriter
from reportlab.lib.pagesizes import letter
from reportlab.pdfbase.pdfmetrics import stringWidth
from reportlab.pdfgen import canvas


def create_footer_page(footer_text):
    packet = io.BytesIO()
    c = canvas.Canvas(packet, pagesize=letter)
    width, height = letter  # letter页面的宽度和高度
    font_name = "Helvetica"  # 使用的字体
    font_size = 12  # 字体大小
    cover_height = font_size + 4  # 覆盖区域的高度稍大于字体大小，以确保完全覆盖原有页码
    cover_y_position = 28  # 覆盖区域的Y位置，根据需要进行调整以确保覆盖原有页码

    # 计算文本宽度和起始X位置以居中文本
    text_width = c.stringWidth(footer_text, font_name, font_size)
    text_start_position = (width - text_width) / 2

    # 绘制一个足够大的白色矩形以覆盖原有页码
    c.setFillColorRGB(1, 1, 1)  # 设置填充颜色为白色
    c.rect(0, cover_y_position, width, cover_height, stroke=False, fill=True)

    # 在页脚区域居中添加文本，高度可以根据需要调整
    c.setFont(font_name, font_size)  # 设置字体和大小
    c.setFillColorRGB(0, 0, 0)  # 设置文本颜色为黑色
    c.drawString(text_start_position, 32, footer_text)  # 绘制居中的页脚文本

    c.save()
    packet.seek(0)
    return PdfReader(packet)


# 定义函数，添加目录页到PDF
def add_catalog_page(bookmarks):
    packet = io.BytesIO()  # 创建内存中的字节包，用于临时存储PDF数据
    c = canvas.Canvas(packet, pagesize=letter)  # 创建一个画布，设置其页面大小为letter
    width, height = letter  # 获取页面宽度和高度
    top_margin = 60  # 设置顶部边距
    bottom_margin = 60  # 设置底部边距
    y_position = height - top_margin  # 计算初始y坐标位置，考虑顶部边距
    c.setFont("Helvetica-Bold", 16)  # 设置目录标题的字体和大小
    c.drawString(280, y_position, "Directory")  # 绘制目录标题
    y_position -= 30  # 更新y坐标位置以为目录项留出空间

    c.setFont("Helvetica", 12)  # 设置目录项的字体和大小
    left_margin = 72  # 左边距
    right_margin = width - 72  # 右边距
    dot_space = 5  # 点之间的间隔
    different_title_spacing = 25  # 不同标题之间的间隔
    same_title_line_spacing = 15  # 同一个标题换行的间隔
    split_ratio = 0.97  # 分割点的位置比例

    title_number = 1  # 初始化标题编号

    for title, page_number in bookmarks:
        title = re.sub(r"\[.*?\]", "", title)  # 删除标题中的方括号及其内容
        title = title.replace("_", " ")  # 将标题中的短横线替换成空格

        # 使用zfill确保编号位数为2，例如"01", "02", ..., "10", "11", ...
        formatted_number = str(title_number).zfill(2)
        title = f"{formatted_number}. {title}"  # 给标题添加编号

        title_number_width = stringWidth(f"{title_number}. ", "Helvetica", 12) + 1  # 计算编号宽度
        title_number += 1  # 更新标题编号

        available_width = right_margin - left_margin - dot_space * 2  # 计算可用宽度
        title_width = stringWidth(title, "Helvetica", 12)
        page_number_str = str(page_number)
        page_number_width = stringWidth(page_number_str, "Helvetica", 12)

        # 判断标题是否需要分割
        if title_width > available_width * split_ratio:
            split_title = title
            # 寻找合适的分割点
            while stringWidth(split_title + "-", "Helvetica", 12) > available_width * split_ratio:
                split_title = split_title[:-1]
            split_title += "-"

            c.drawString(left_margin, y_position, split_title)
            y_position -= same_title_line_spacing  # 为分割后的标题调整y坐标
            title = title[len(split_title) - 1:]
            # 特别注意：这里不再添加编号宽度，因为编号已经在第一行绘制
            c.drawString(left_margin + title_number_width, y_position, title)  # 绘制续行部分标题
        else:
            # 如果不需要分割标题，直接绘制
            c.drawString(left_margin, y_position, title)

        #c.drawString(left_margin, y_position, title)  # 绘制标题
        c.drawRightString(right_margin, y_position, page_number_str)  # 绘制页码

        # 绘制点线连接标题和页码
        dot_line_start = left_margin + stringWidth(title, "Helvetica", 12) + 10
        dot_line_end = right_margin - page_number_width - 10
        current_position = dot_line_start

        while current_position < dot_line_end:
            c.drawString(current_position, y_position, ".")
            current_position += dot_space

        y_position -= different_title_spacing  # 更新y坐标以为下一个标题留出空间
        if y_position < bottom_margin:  # 检查是否需要翻页
            c.showPage()
            y_position = height - top_margin  # 重置y坐标，考虑顶部边距
            c.setFont("Helvetica", 12)  # 确保新页面使用正确的字体和大小

    c.save()  # 保存PDF到内存中的字节包
    packet.seek(0)  # 将字节包的指针重置到开始位置
    return PdfReader(packet)  # 创建并返回一个PDF阅读器对象，包含内存中的PDF数据


# 读取PDF/路径下所有.pdf为后缀的文件
pdf_dir = '老师的论文集/'
pdf_files = sorted([f for f in os.listdir(pdf_dir) if f.endswith('.pdf')], reverse=True)

# 找到特定文件并将其移动到列表的开头
specific_file = "[Z] Mth.pdf"
if specific_file in pdf_files:
    pdf_files.insert(0, pdf_files.pop(pdf_files.index(specific_file)))
    print(pdf_files)

# 存储所有处理后的页面，以便后续添加页脚
all_pages = []
bookmarks = []
total_pages = 0

# 首先处理每个PDF文件，但不立即添加页脚
for filename in pdf_files:
    reader = PdfReader(os.path.join(pdf_dir, filename))
    bookmarks.append((filename.replace('.pdf', ''), total_pages + 1))
    for page in reader.pages:
        all_pages.append(page)
        total_pages += 1

# 创建目录页并添加到最终PDF
writer = PdfWriter()
catalog_pdf = add_catalog_page(bookmarks)
for page in catalog_pdf.pages:
    writer.add_page(page)

# 为每页添加页脚，并将页面添加到最终的PDF中
current_page_number = 1  # 从目录页之后的第一页开始计数页码
catalog_pages_count = len(catalog_pdf.pages)  # 计算目录页数量

for page in all_pages:
    # 不再需要在页码中加上目录页的数量
    footer_pdf = create_footer_page(f"Page number: {current_page_number}")
    page.merge_page(footer_pdf.pages[0])
    writer.add_page(page)
    current_page_number += 1

# 保存最终的PDF
output_pdf_path = "老师的论文集.pdf"
with open(output_pdf_path, "wb") as f_out:
    writer.write(f_out)

汐ya~

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
一站式Python脚本：自动生成带目录和页脚的合并PDF文档

步骤一：准备环境步骤二：合并PDF文件步骤三：处理特定文件步骤四：合并并添加目录与页脚步骤五：保存最终文档结语完整代码在处理文档时，我们经常遇到需要合并多个PDF文件并添加目录及页脚的情况。本文将介绍如何使用Python，特别是PyPDF2和reportlab库来实现这一功能。我们将通过一个实用的示例来演示整个过程，包括如何动态创建目录页和在每页底部添加页码。通过上述步骤，我们展示了如何使用Python处理PDF文件，包括合并多个PDF文件、动态创建目录页和在每页底部添加自定义页脚。
复制链接

扫一扫