批量截取PDF指定页面

原博主网址如下,仅作学习记录。

https://blog.csdn.net/qq_42003943/article/details/124385592?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-8-124385592-blog-125025413.235v27pc_relevant_default&spm=1001.2101.3001.4242.5&utm_relevant_index=11

1、提取第一页

import os
from PyPDF2 import PdfFileWriter, PdfFileReader

def get_file(path, all_files):
    FileNames = os.listdir(path)
    for file_name in FileNames:
        cur_path = os.path.join(path, file_name)
        if os.path.isdir(cur_path):
            get_file(cur_path, all_files)
        else:
            if file_name.endswith('.pdf'):
                all_files.append(cur_path)
    return all_files


def extract_one_pdf(pdf_path, save_dir, start_page, end_page):
    pdf_name = pdf_path.split("\\")[-1]
    print(f"Processing file -- {pdf_path}")
    if not os.path.exists(save_dir):
        print(save_dir)
        os.makedirs(save_dir)
    pdf_file = PdfFileReader(pdf_path, strict=False)
    pdf_pages = pdf_file.getNumPages()
    if not -1 < start_page < end_page < pdf_pages:
        raise ValueError("Pages Error")

    pdf_output = PdfFileWriter()
    for i in range(start_page, end_page):
        page = pdf_file.getPage(i)
        pdf_output.addPage(page)
    with open(save_dir + pdf_name, 'wb') as out:
        pdf_output.write(out)

def extract_many_pdf(pdf_dir_path, save_path, start_page, end_page):
    count=0
    source_files = get_file(pdf_dir_path, [])
    for i, file in enumerate(source_files):
        try:
            file_name = file.split("\\")[-1]
            save_file = file.replace(pdf_dir_path, save_path)
            save_dir = save_file.replace(file_name, '')
            count = count +1
            extract_one_pdf(file, save_dir, start_page, end_page)
        except:
            print("文件错误:",file_name)
        continue
    print("本次共计处理",count,"个文件") 
    print('process finished,please check') 


if __name__ == '__main__':
    path = "Z:\\00\\"
    out_path = "Z:\\01\\"
    extract_many_pdf(path, out_path, 0, 1)

2、读取原始文件路径所有文件文件名字

import os
import xlwt #操作excel模块
import sys

path25= "Z:\\00\\"
file_path = path25+'\\清单识别数据.xls'#sys.path[0]为要获取当前路径,filenamelist为要写入的文件
f = xlwt.Workbook(encoding='utf-8', style_compression=0) #新建一个excel
sheet = f.add_sheet('sheet1') #新建一个sheet
pathDir = os.listdir(path25)#文件放置在当前文件夹中,用来获取当前文件夹内所有文件目录
 
i = 0 #将文件列表写入test.xls
for s in pathDir:
    sheet.write(i, 0, s) #参数i,0,s分别代表行,列,写入值
    i = i+1
            
print(file_path)
print(i)        #显示文件名数量
f.save(file_path)

3、读取提取后文件路径所有文件

import os
import xlwt #操作excel模块
import sys

path25= "Z:\\01\\"
file_path = path25+'\\清单识别数据.xls'#sys.path[0]为要获取当前路径,filenamelist为要写入的文件
f = xlwt.Workbook(encoding='utf-8', style_compression=0) #新建一个excel
sheet = f.add_sheet('sheet1') #新建一个sheet
pathDir = os.listdir(path25)#文件放置在当前文件夹中,用来获取当前文件夹内所有文件目录
 
i = 0 #将文件列表写入test.xls
for s in pathDir:
    sheet.write(i, 0, s) #参数i,0,s分别代表行,列,写入值
    i = i+1
            
print(file_path)
print(i)        #显示文件名数量
f.save(file_path)

4、合并PDF文件

https://www.cnblogs.com/weiyangoo/p/14248061.html

# -*- coding:utf-8*-
# 利用PyPDF2模块合并同一文件夹下的所有PDF文件
# 只需修改存放PDF文件的文件夹变量:file_dir 和 输出文件名变量: outfile

import os
from PyPDF2 import PdfFileReader, PdfFileWriter
import time
import sys

if not sys.warnoptions:
    import warnings
    warnings.simplefilter("ignore")

# 使用os模块的walk函数,搜索出指定目录下的全部PDF文件
# 获取同一目录下的所有PDF文件的绝对路径
def getFileName(filedir):

    file_list = [os.path.join(root, filespath) \
                 for root, dirs, files in os.walk(filedir) \
                 for filespath in files \
                 if str(filespath).endswith('pdf')
                 ]
    return file_list if file_list else []

# 合并同一目录下的所有PDF文件
def MergePDF(filepath, outfile):

    output = PdfFileWriter()
    outputPages = 0
    pdf_fileName = getFileName(filepath)

    if pdf_fileName:
        for pdf_file in pdf_fileName:
            print("路径:%s"%pdf_file)

            # 读取源PDF文件
            input = PdfFileReader(open(pdf_file, "rb"),strict=False)

            #获得源PDF文件中页面总数
            pageCount = input.getNumPages()
            outputPages += pageCount
            print("页数:%d"%pageCount)

            # 分别将page添加到输出output中
            for iPage in range(pageCount):
                output.addPage(input.getPage(iPage))

        print("合并后的总页数:%d."%outputPages)
        # 写入到目标PDF文件
        outputStream = open(os.path.join(filepath, outfile), "wb")
        output.write(outputStream)
        outputStream.close()
        print("PDF文件合并完成!")

    else:
        print("没有可以合并的PDF文件!")

主函数如下:

# 主函数
def main():
    time1 = time.time()
    file_dir = r"Z:\01"   #待合并pdf路径
    outfile = "merge.pdf"   #合并好的pdf文件名
    MergePDF(file_dir, outfile)
    time2 = time.time()
    print('总共耗时:%s s.' %(time2 - time1))
main()
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
图片批量裁剪器(精华版)是 一款功能丰富、实用、应有尽有的图片/视频批量裁剪、水印、转换、更名,以及其他处理的专业工具!批量处理时不低于5万个文件。 以管理员身份和兼容xp3模式下运行,可支持win7,win8,win10,64位。 图片批量裁剪器(精华版)功能 1. 支持常见图片类型如bmp,jpg,tif,gif,png,支持部分非常见图片类型,如PSD,PCX,ICO,Pdf,动态Gif等等;支持对大多数常见的音频/视频文件格式的裁剪、转换、水印、分割、合并等; 2.提供对图片文件的丰富多彩实用的各种批量裁剪模式,如相对、绝对、固定、大小、等分/非等分分切、分隔、同比/非同比缩放、拼接/无缝拼合、贴边等等几百种裁剪处理功能; 支持圆角矩形/椭圆形/圆形/任意角度裁剪,支持自定义圆角矩形半径裁剪; 3.其他更丰富的裁剪功能,请参见主页说明或程序,比如:提取图片上的文字并保存先裁剪后加水印一步到位忽略处理过的文件夹手动指定裁剪区域多裁剪区域裁剪打印二维码图片转Pdf 过滤小图或缩略图 AB文件夹配对拼合 …… 内置其他功能列表: 1.图片烙制水印(文字水印,图片水印,淘宝卖家专用水印,以及其他上百种水印功能模式供选择,特别如以拍摄日期作为文字水印,递增数字水印等等,批量制卡证等) 2.图片旋转及格式转换(特别功能如智能扳正) 3.图片亮度/对比度调整 4.图片压缩(特色功能如保留Exif信息的压缩) 5.定制图片大小/尺寸(特色功能如能按指定的文件大小压缩,比如压缩到120kb左右,仅压缩大图,小图忽略压缩等) 6.图片像素筛查(从海量图片中筛查出满足条件的图片供删除、移动、复制、更名等) 7.(图片)文件时间属性修改(比如更改拍摄日期,没有做不到只有想不到) 8.图像综合处理 9.(图片)文件批量更名(强大丰富的多种文件批量更名功能) 10.文件随机/顺序/定时抽取分发(将海量文件复制或移动到指定的文件夹中) 11.证件照批量更换背景颜色 12.色块/色条魔术棒裁剪,颜色替换 13.音视频裁剪/分割/合并/转换/加水印/录音/录像 14.批量替换图片中的图片或文字 15.图像批量组合排版 16.证件制作排版(广告公司实用) 17.Jpg图片Exif信息编辑器 18.重复或相似图片批量查找 19.相对/绝对/固定裁剪简易兼容备用版 20.Jpg转视频avi或其他(影楼后期制作DV工具) 21.图片批量浏览挑拣器(影楼客户自选照片实用) 22.图片批量叠加/混合 23.视频批量加密(特色功能如用户可自行在线找回播放密码,一机一码,一视频一码) 24.账号、密码批量管理小秘书(管理你各种账号密码,完全安全加密) 25.动态Gif图片裁剪、水印;图片压制成动态Gif(按时间轴裁剪,裁剪后的gif仍然是动画模式) 26.音频片段截取助手 27.广告喷绘大图专用分切器(喷绘行业专用) 图片批量水印裁剪器 v6.0.20161008精华版更新内容: 1.新增动态Gif水印区域批量涂抹模糊,或者图片水印区域批量涂抹功能; 2.修正水印添加模块中,还原或重设DPI功能时失效异常的问题; 3.在水印批量添加模块中,新增还原原图DPI以及转为CMYK印刷颜色模式的新功能; 4.新增批量生成二维码图片的功能; 5.新增图片裁剪/缩放/格式转换/添加水印等单张综合处理功能模块; 6.修正先选择后裁剪功能实现的问题; 7.新增批量对动态Gif文件指定水印区域模糊化处理功能; 8.新增定时对指定的目录中的图片挂机无人值守自动裁剪功能,忽略已处理过的图片文件; 9.新增纯文字水印添加功能模块; 10.新增学生证件照排版和学生胸卡排版制作打印功能模块; 11.改进修正Jpg系列图片转视频功能,并新增同时给转换后的视频叠加音频的功能; 12.修正改进动态Gif裁剪、水印功能模块; 13.改进跟图片OCR文字识别的有关问题和功能; 14.新增备用下载服务器和网络登录版; 15.修正精确去片头片尾功能; 16.修正某些音频视频文件播放时间不足一秒时无法加载入文件列表的异常; 17.修正媒体批量合并功能模块全部失效的问题; 18.新增以文件夹名作为动态文字水印的功能。 图片批量裁剪器(精华版)截图
批量截取指定区域并保存图片,您可以使用OpenCV库来完成。以下是一个示例代码,演示了如何从多个图像中截取指定区域并保存。 ```python import cv2 import os # 定义要截取区域坐标 x = 100 # 左上角 x 坐标 y = 100 # 左上角 y 坐标 width = 200 # 区域宽度 height = 200 # 区域高度 # 定义输入图像文件夹路径和输出图像文件夹路径 input_folder = 'path/to/input/folder' output_folder = 'path/to/output/folder' # 获取输入文件夹中的所有图像文件列表 image_files = [f for f in os.listdir(input_folder) if os.path.isfile(os.path.join(input_folder, f))] # 遍历每个图像文件 for image_file in image_files: # 读取图像 image_path = os.path.join(input_folder, image_file) image = cv2.imread(image_path) # 截取指定区域 roi = image[y:y+height, x:x+width] # 构造输出文件路径 output_file = os.path.splitext(image_file)[0] + '_cropped.jpg' output_path = os.path.join(output_folder, output_file) # 保存截取后的图像 cv2.imwrite(output_path, roi) print(f"已保存截取后的图像: {output_file}") print("批量截取并保存完成") ``` 请确保将代码中的 `'path/to/input/folder'` 替换为实际的输入图像文件夹路径,将 `'path/to/output/folder'` 替换为实际的输出图像文件夹路径。代码将遍历输入文件夹中的所有图像文件,读取每个图像并截取指定区域,然后将截取后的图像保存到输出文件夹中。最后,将会打印出已保存的截取后的图像文件名。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值