Python操作PDF文件
运用Python语言对PDF文件进行一系列操作,例如提取PDF文件的文本内容、表格、图片;对PDF文件的合并以及拆分;将PDF文件转换为word文件;给PDF文件添加水印;PDF文件页面旋转等
黎曼最初的梦想
这个作者很懒,什么都没留下…
展开
-
PDF按指定步长拆分
param step: 每step间隔的页面生成一个文件,例如step=5,表示0-4页、5-9页...为一个文件。需要注意的是,在拆分的过程中,可以手动设置间隔,例如:每5页保存成一个小的 PDF 文件。将‘test.pdf’文件中的每一页单独单独另存为,步长为1(step=1).遍历每一页内容,以每个 step 为间隔将 PDF 存成每一个小的文件块。@param save_dirpath:保存小的PDF的文件路径。将小的文件块重新保存为新的 PDF 文件。拆分PDF为多个小的PDF文件,原创 2024-04-01 16:29:59 · 125 阅读 · 0 评论 -
PDF旋转页面
一、旋转一页并单独保存。二、对整个PDF文件中每一页进行旋转并另存为一个新的pdf文档。导入需要使用的包PdfReader, PdfWriter。原创 2024-04-01 16:32:27 · 412 阅读 · 0 评论 -
PDF文件转换为WORD文件
自定义函式名pdf2word(file_path)#file_path是需要转换的pdf文件的路径。导入所需的包pdf2docx。输出转换的word文件。原创 2024-04-01 16:26:47 · 247 阅读 · 0 评论 -
提取PDF文件中的图片
提取图片内容使用 fitz 打开文档,获取文档详细数据遍历每一个元素,通过正则找到图片的索引位置使用 Pixmap 将索引对应的元素生成图片通过 size 函数过滤较小的图片原创 2024-04-01 16:40:10 · 266 阅读 · 0 评论 -
合并PDF
只需修改存放PDF文件的文件夹变量:file_dir 和 输出文件名变量: outfile。print("合并后的总页数:%d."%outputPages)outfile = "Merge.pdf" # 输出的PDF文件的名称。print("路径:%s"%pdf_file)# 使用os模块的walk函数,搜索出指定目录下的全部PDF文件。print("没有可以合并的PDF文件!print("PDF文件合并完成!# 获取同一目录下的所有PDF文件的绝对路径。# 合并同一目录下的所有PDF文件。原创 2024-04-01 16:17:16 · 333 阅读 · 0 评论 -
提取PDF文件中的表格
extract_table_info(filepath=r'E:\learn\PDF相关处理\PDF提取表格\PDF表格.pdf',save_dirpath=r'E:\learn\PDF相关处理\PDF提取表格','E:\learn\PDF相关处理\PDF提取表格\提取表格test.csv',extract_table_info(r'E:\learn\PDF相关处理\PDF提取表格\PDF表格.pdf',# 如果一页有一个表格,设置表格的第一行为表头,其余为数据。# 设置表格的第一行为表头,其余为数据。原创 2024-04-01 16:36:06 · 412 阅读 · 0 评论 -
提取PDF文件的文本内容
自定义函式名def extract_text_info(filepath, save_dirpath, save_filename, Page)自定义函式名def extract_all_text_info(filepath, save_dirpath, save_filename)@param Page:获取的页码(第一页从0开始)@param Page:获取的页码(第一页从0开始)@param filepath:文件路径。#提取PDF文件中某一页的文本内容。#提取整个PDF文件的所有页的内容。原创 2024-04-01 16:43:33 · 405 阅读 · 0 评论 -
按指定规则(自定义)拆分PDF文件
1.txt:为拆分规则文件名,(在文件夹中写入1-4 try,就是把1-4截取下来放在文件夹为try.pdf的文件夹下)导入需要使用的PyPDF2 包。split.py为文件的名称。m.pdf:为拆分文件名称。原创 2024-04-01 16:48:32 · 362 阅读 · 0 评论 -
PDF加水印
自定义函式名get_pdf_files,获取指定路径文件夹下的所有需要添加水印的pdf文件(忽略了水印文件)。自定义函式名add_watemark,获取水印文件,并将水印覆盖到需要添加水印的pdf文件中。#watermark_file是需要加水印的文件;pdf_file是水印文件。获取需要加水印的pdf文件。输出添加水印了的pdf文件。原创 2024-04-01 16:23:20 · 213 阅读 · 0 评论