基于PyPDF2实现自动化批量PDF文件合并【自动化】【PyPDF2】

来杯Sherry

于 2024-05-16 16:50:08 发布

阅读量156

点赞数 1

分类专栏： Python 每日分享文章标签：自动化 pdf python PyPDF2

本文链接：https://blog.csdn.net/weixin_44041700/article/details/138966305

版权

Python 同时被 2 个专栏收录

45 篇文章 2 订阅

订阅专栏

每日分享

42 篇文章 0 订阅

订阅专栏

文章目录

场景
功能
说明
代码

场景

手动合并PDF文件是一个繁琐且耗时的过程，特别是当需要合并大量文件时。自动化工具可以迅速完成这一任务，从而节省宝贵的时间，使用可视化工具PDFShaper-Professional仍然无法摆脱全自动，仍需要人为干预去做文件选定，可参考使用以下代码做文件选定、合并，流程全自动化处理。

功能

将doc1_1.pdf、…、doc1_200.pdf、… 、doc1001_1.pdf、… 、doc1001_100.pdf自动批量合并成doc1.pdf、… 、doc1001.pdf

说明

确定一个合并顺序（这里基于数字后缀，可改），确定一个要合并的文件在名称上的共性（这里基于相同的前缀，可改），参考格式：
docName_index.pdf
创建输入目录(./pdf)
doc1_1.pdf、…、doc1_200.pdf、… 、doc1001_1.pdf、… 、doc1001_100.pdf
创建输出目录(./output)
存放doc1.pdf、… 、doc1001.pdf

代码

import os
from PyPDF2 import PdfMerger



def merge_pdfs_by_prefix(directory, prefix):
    # 收集所有具有相同前缀的PDF文件
    pdf_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.startswith(prefix) and f.endswith('.pdf')]
    
    # 对文件进行排序，确保合并的顺序是正确的
    pdf_files.sort(key=lambda x: int(''.join(filter(str.isdigit, os.path.basename(x)))))
    # print(pdf_files)
    # exit(0)
    
    merger = PdfMerger()
    for pdf_file in pdf_files:
        merger.append(pdf_file)
    
    output_pdf = f"output/{prefix}.pdf"
    merger.write(output_pdf)
    merger.close()
    print(f"Merged PDF files into {output_pdf}")


def extract_prefix(directory):
    #提取前缀集合
    res =[ item[:item.find('_')] for item in os.listdir(directory) ]
    res = list(set(res))
    # print(res)
    # exit(0)
    return res

if __name__ =='__main__':
    directory = './pdf'
    prefix_list = extract_prefix(directory)
    for prefix in prefix_list:
        merge_pdfs_by_prefix(directory, prefix)

来杯Sherry

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于PyPDF2实现自动化批量PDF文件合并【自动化】【PyPDF2】

手动合并PDF文件是一个繁琐且耗时的过程，特别是当需要合并大量文件时。自动化工具可以迅速完成这一任务，从而节省宝贵的时间，使用可视化工具。仍然无法摆脱全自动，仍需要人为干预去做文件选定，可参考使用以下代码做文件选定、合并，流程全自动化处理。
复制链接

扫一扫