一站式Python脚本:自动生成带目录和页脚的 合并PDF文档

本文介绍了一个Python脚本,利用reportlab和PyPDF2库自动将指定文件夹内的多个PDF文件整合为一个PDF,添加自定义页脚和目录页,提高处理大量PDF文档的效率。
摘要由CSDN通过智能技术生成

在处理大量PDF文档时,尤其是需要将它们整合成一个文件并添加统一页脚和目录时,手动操作不仅耗时还容易出错。本文介绍的Python脚本能够自动化这一流程,极大提升工作效率,非常适合学术研究、文档管理等需要处理大量PDF文件的场景。

作用:

将指定文件夹内的多个PDF文件整合成一个PDF文件,同时为每一页添加自定义的页脚(如页码),并在文档前添加一个包含所有原始PDF文件名作为标题的目录页。以下是详细的代码流程解释:

1. 创建页脚页面 (create_footer_page 函数)

  • 使用reportlab库在一个空的PDF页面上绘制自定义文本作为页脚,文本位于页面底部中心位置。
  • 为了确保新的页脚可以覆盖原有页码,首先绘制一个足够大的白色矩形来覆盖底部的区域,然后在该区域上添加文本。

2. 添加目录页到PDF (add_catalog_page 函数)

  • 生成一个包含目录的PDF页面。目录页上会列出所有被整合PDF文件的标题(即文件名,去除了.pdf后缀)及其在最终PDF文件中的起始页码。
  • 目录页处理长标题分行显示,确保标题不会超出页面边缘,并使用点线连接标题和页码,使目录易于阅读。

3. 读取并整合PDF文件

  • 按照指定顺序 (可将特定文件置于首位) 读取文件夹内的所有PDF文件。
  • 对于每个PDF文件,读取其全部页面,并记录其标题和起始页码用于生成目录页。

4. 创建并添加目录页

  • 使用add_catalog_page函数生成目录页,并将此页添加到最终PDF文档的开头。

5. 添加页脚并整合所有页面

  • 对于原始PDF文档中的每一页,使用create_footer_page函数创建一个包含页脚的页面,并将其与原始页面合并,以确保每一页都带有页脚信息。
  • 将处理过的页面逐一添加到最终的PDF文档中。

6. 保存最终PDF文档

  • 将所有处理后的页面(包括目录页和带页脚的原始页面)整合成一个新的PDF文件,并保存到指定的路径。

完整代码


import io
import os
import re

from PyPDF2 import PdfReader
from PyPDF2 import PdfWriter
from reportlab.lib.pagesizes import letter
from reportlab.pdfbase.pdfmetrics import stringWidth
from reportlab.pdfgen import canvas


def create_footer_page(footer_text):
    packet = io.BytesIO()
    c = canvas.Canvas(packet, pagesize=letter)
    width, height = letter  # letter页面的宽度和高度
    font_name = "Helvetica"  # 使用的字体
    font_size = 12  # 字体大小
    cover_height = font_size + 4  # 覆盖区域的高度稍大于字体大小,以确保完全覆盖原有页码
    cover_y_position = 28  # 覆盖区域的Y位置,根据需要进行调整以确保覆盖原有页码

    # 计算文本宽度和起始X位置以居中文本
    text_width = c.stringWidth(footer_text, font_name, font_size)
    text_start_position = (width - text_width) / 2

    # 绘制一个足够大的白色矩形以覆盖原有页码
    c.setFillColorRGB(1, 1, 1)  # 设置填充颜色为白色
    c.rect(0, cover_y_position, width, cover_height, stroke=False, fill=True)

    # 在页脚区域居中添加文本,高度可以根据需要调整
    c.setFont(font_name, font_size)  # 设置字体和大小
    c.setFillColorRGB(0, 0, 0)  # 设置文本颜色为黑色
    c.drawString(text_start_position, 32, footer_text)  # 绘制居中的页脚文本

    c.save()
    packet.seek(0)
    return PdfReader(packet)


# 定义函数,添加目录页到PDF
def add_catalog_page(bookmarks):
    packet = io.BytesIO()  # 创建内存中的字节包,用于临时存储PDF数据
    c = canvas.Canvas(packet, pagesize=letter)  # 创建一个画布,设置其页面大小为letter
    width, height = letter  # 获取页面宽度和高度
    top_margin = 60  # 设置顶部边距
    bottom_margin = 60  # 设置底部边距
    y_position = height - top_margin  # 计算初始y坐标位置,考虑顶部边距
    c.setFont("Helvetica-Bold", 16)  # 设置目录标题的字体和大小
    c.drawString(280, y_position, "Directory")  # 绘制目录标题
    y_position -= 30  # 更新y坐标位置以为目录项留出空间

    c.setFont("Helvetica", 12)  # 设置目录项的字体和大小
    left_margin = 72  # 左边距
    right_margin = width - 72  # 右边距
    dot_space = 5  # 点之间的间隔
    different_title_spacing = 25  # 不同标题之间的间隔
    same_title_line_spacing = 15  # 同一个标题换行的间隔
    split_ratio = 0.97  # 分割点的位置比例

    title_number = 1  # 初始化标题编号

    for title, page_number in bookmarks:
        title = re.sub(r"\[.*?\]", "", title)  # 删除标题中的方括号及其内容
        title = title.replace("_", " ")  # 将标题中的短横线替换成空格

        # 使用zfill确保编号位数为2,例如"01", "02", ..., "10", "11", ...
        formatted_number = str(title_number).zfill(2)
        title = f"{formatted_number}. {title}"  # 给标题添加编号

        title_number_width = stringWidth(f"{title_number}. ", "Helvetica", 12) + 1  # 计算编号宽度
        title_number += 1  # 更新标题编号

        available_width = right_margin - left_margin - dot_space * 2  # 计算可用宽度
        title_width = stringWidth(title, "Helvetica", 12)
        page_number_str = str(page_number)
        page_number_width = stringWidth(page_number_str, "Helvetica", 12)

        # 判断标题是否需要分割
        if title_width > available_width * split_ratio:
            split_title = title
            # 寻找合适的分割点
            while stringWidth(split_title + "-", "Helvetica", 12) > available_width * split_ratio:
                split_title = split_title[:-1]
            split_title += "-"

            c.drawString(left_margin, y_position, split_title)
            y_position -= same_title_line_spacing  # 为分割后的标题调整y坐标
            title = title[len(split_title) - 1:]
            # 特别注意:这里不再添加编号宽度,因为编号已经在第一行绘制
            c.drawString(left_margin + title_number_width, y_position, title)  # 绘制续行部分标题
        else:
            # 如果不需要分割标题,直接绘制
            c.drawString(left_margin, y_position, title)

        #c.drawString(left_margin, y_position, title)  # 绘制标题
        c.drawRightString(right_margin, y_position, page_number_str)  # 绘制页码

        # 绘制点线连接标题和页码
        dot_line_start = left_margin + stringWidth(title, "Helvetica", 12) + 10
        dot_line_end = right_margin - page_number_width - 10
        current_position = dot_line_start

        while current_position < dot_line_end:
            c.drawString(current_position, y_position, ".")
            current_position += dot_space

        y_position -= different_title_spacing  # 更新y坐标以为下一个标题留出空间
        if y_position < bottom_margin:  # 检查是否需要翻页
            c.showPage()
            y_position = height - top_margin  # 重置y坐标,考虑顶部边距
            c.setFont("Helvetica", 12)  # 确保新页面使用正确的字体和大小

    c.save()  # 保存PDF到内存中的字节包
    packet.seek(0)  # 将字节包的指针重置到开始位置
    return PdfReader(packet)  # 创建并返回一个PDF阅读器对象,包含内存中的PDF数据


# 读取PDF/路径下所有.pdf为后缀的文件
pdf_dir = '老师的论文集/'
pdf_files = sorted([f for f in os.listdir(pdf_dir) if f.endswith('.pdf')], reverse=True)

# 找到特定文件并将其移动到列表的开头
specific_file = "[Z] Mth.pdf"
if specific_file in pdf_files:
    pdf_files.insert(0, pdf_files.pop(pdf_files.index(specific_file)))
    print(pdf_files)

# 存储所有处理后的页面,以便后续添加页脚
all_pages = []
bookmarks = []
total_pages = 0

# 首先处理每个PDF文件,但不立即添加页脚
for filename in pdf_files:
    reader = PdfReader(os.path.join(pdf_dir, filename))
    bookmarks.append((filename.replace('.pdf', ''), total_pages + 1))
    for page in reader.pages:
        all_pages.append(page)
        total_pages += 1

# 创建目录页并添加到最终PDF
writer = PdfWriter()
catalog_pdf = add_catalog_page(bookmarks)
for page in catalog_pdf.pages:
    writer.add_page(page)

# 为每页添加页脚,并将页面添加到最终的PDF中
current_page_number = 1  # 从目录页之后的第一页开始计数页码
catalog_pages_count = len(catalog_pdf.pages)  # 计算目录页数量

for page in all_pages:
    # 不再需要在页码中加上目录页的数量
    footer_pdf = create_footer_page(f"Page number: {current_page_number}")
    page.merge_page(footer_pdf.pages[0])
    writer.add_page(page)
    current_page_number += 1

# 保存最终的PDF
output_pdf_path = "老师的论文集.pdf"
with open(output_pdf_path, "wb") as f_out:
    writer.write(f_out)



  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汐ya~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值