20210622_26期_办公自动化_Task4_Python 操作 PDF

最新推荐文章于 2022-03-28 11:25:14 发布

余柳成荫

最新推荐文章于 2022-03-28 11:25:14 发布

阅读量287

点赞数

分类专栏：机器学习

原文链接：https://github.com/datawhalechina/team-learning-program/tree/master/OfficeAutomation

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

四、Python 操作 PDF

在这里插入图片描述

0 基础

主要包括PdfFileReader Class,PdfFileMerger,PageObject Class,PdfFileWriter这四个大类还有一个其他类

在这里插入图片描述

1.The PdfFileReader Class

初始化一个 PdfFileReader 对象A，此操作可能需要一些时间，因为 PDF 流的交叉引用表被读入内存。
PdfFileReader常用函数:

相关属性以及函数	描述	备注
`decrypt(password)`	可以对加密的文档进行解密操作
`documentInfo`	通过getDocumentInfo()函数功能访问的只读属性
`getDestinationPageNumber(destination)`	检索目标对象的页数	若错误则返回-1
`getDocumentInfo()`	检索PDF文件的字典信息是否存在存在会返回相关信息，不存在则会返回None	部分PDF文件使用的是元数据流
`getFields(tree=None, retval=None, fileobj=None)`	如果此 PDF文档中包含交互式表单字段，则提取字段数据	返回类型是字典或者None
`getFormTextFields()`	从文档中检索带有文本数据（输入，下拉列表）的表单域
`getNamedDestinations(tree=None, retval=None)`	检索文档中的特定的目标	返回字典类型
`namedDestinations`	通过getNamedDestinations()函数的只读属性
`getNumPages（）`	计算此PDF的页数
`numPages`	通过getNumPages()函数的只读属性
`getOutlines（node = None，outlines = None ）`	检索文档中存在的文档大纲
`outlines`	通过getOutlines（）函数的只读属性
`getPage（pageNumber ）`	按编号检索页面	就是找到某页内容
`getPageLayout（）`	获取页面布局	返回类型为字符串
`pageLayout`	通过getPageLayout（）的只读属性
`getPageMode（）`	获取页面模式	返回类型为字符串
`pageMode`	通过getPageMode的只读属性
`getPageNumber（页面）`	检索给定页面的页码
`getXmpMetadata（）`	从PDF文档根目录检索XMP(可扩展元数据平台)数据
`xmpMetadata`	通过getXmpMetadata（）的只读属性
`isEncrypted`	显示此文档是否被加密的属性	如果为True调用decrypt（）解密之后属性依旧为True

The PdfFileMerger Class:

初始化一个PdfFileMerger对象B，其可以将多个pdf合并成一个，可以串联、切片或者插入
PdfFileMerger常用函数

相关函数	描述
`addBookmark(title, pagenum, parent=None)`	将书签添加到这个pdf里面
`addMetadata(infos)`	将自定义元数据添加到输出中
`addNamedDestination(title, pagenum)`	将目标添加到输出。
`append(fileobj, bookmark=None, pages=None, import_bookmarks=True)`	与merge()方法相同，但是假定您要将所有页面连接到文件末尾，而不是指定位置
`close()`	关闭所有文件描述符（输入和输出）并清除所有内存使用情况
`merge(position, fileobj, bookmark=None, pages=None, import_bookmarks=True)`	以指定的页码将页面从给定文件合并到输出文件中
`setPageLayout(layout)`	设置页面布局
`setPageMode(mode)`	设置页面模式
`write(fileobj)`	将已合并的所有数据写入给定的输出文件

The PdfFileObject Class:

此类表示PDF文件中的单个页面。通常，将通过访问类的getPage()方法来创建此对象 PdfFileReader，但是也可以使用createBlankPage()静态方法来创建一个空页面

C = PyPDF2.pdf.PageObject(pdf=None, indirectRef=None)

其中参数
pdf：页面所属的PDF文件
indirectRef：在该对象的源PDF中存储对该对象的原始间接引用（通俗来讲就是）

相关属性以及函数	描述	备注
`mergeRotatedTranslatedPage(page2, rotation, tx, ty, expand=False)`	类似于mergePage，但是要合并的流通过应用转换矩阵进行缩放
`mergeScaledPage(page2, scale, expand=False)`	类似于mergePage，但是要合并的流通过应用转换矩阵进行转换和缩放
`rotateClockwise(angle)`	顺时针旋转页面90度
`rotateCounterClockwise(angle)`	逆时针旋转页面90度
`scale(sx, sy)`	通过将变换矩阵应用于其内容并更新页面大小，以给定的因子缩放页面

The PdfFileWriter Class

此类支持将PDF文件写出，给定由另一类产生的页面（通常为PdfFileReader）
常见函数:

相关属性以及函数	描述	备注
`addAttachment(fname, fdata)`	将文件嵌入PDF
`addBlankPage(width=None, height=None)`	将一个空白页添加到PDF文件里具体页数没有确定的话，添加到最后一页
`getNumPages()`	获取页数	返回值为整数
`getPage(pageNumber)`	从此PDF文件中按编号检索页面返回类型为Pageobject
`getPageLayout()`	获取页面布局
`getPageMode()`	获取页面模式
`insertBlankPage(width=None, height=None, index=0)`	插入空白页到PDF文件未指定则默认最后一页
`insertPage(page, index=0)`	插入一页内容到PDF文件
`setPageLayout(layout)`	设置页面布局
`setPageMode(mode)`	设置页面模式
`updatePageFormFieldValues(page, fields)`	从字段字典更新给定页面的表单字段值。将字段文本和值从字段复制到页面
`write(stream)`	将添加到该对象的页面集合写为PDF文件

1 PDF拆分


#拆分pdf
import os
from PyPDF2 import PdfFileReader 
from PyPDF2 import PdfFileWriter
def split_pdf(filename, filepath, save_dirpath, step=5):
    """
    拆分PDF为多个小的PDF文件，
    @param filename:文件名
    @param filepath:文件路径
    @param save_dirpath:保存小的PDF的文件路径
    @param step: 每step间隔的页面生成一个文件，例如step=5，表示0-4页、5-9页...为一个文件
    @return:
    """
    if not os.path.exists(save_dirpath):
        os.mkdir(save_dirpath)
    pdf_reader = PdfFileReader(filepath)
    # 读取每一页的数据
    pages = pdf_reader.getNumPages()
    for page in range(0, pages, step):
        pdf_writer = PdfFileWriter()
        # 拆分pdf，每 step 页的拆分为一个文件
        for index in range(page, page+step):
            if index < pages:
                pdf_writer.addPage(pdf_reader.getPage(index))
        # 保存拆分后的小文件
        save_path = os.path.join(save_dirpath, filename+str(int(page/step)+1)+'.pdf')
        print(save_path)
        with open(save_path, "wb") as out:
            pdf_writer.write(out)

    print("文件已成功拆分，保存路径为："+save_dirpath)
path = "C:/Users/GJX/Desktop/OfficeAutomation/"
split_pdf("易方达中小盘混合型证券投资基金2020年中期报告.pdf",
          path+"易方达中小盘混合型证券投资基金2020年中期报告.pdf",
          path, step=5)

在这里插入图片描述

小坑:
(1) 文件路径后需要加文件名., 要不然报权限的错误

在这里插入图片描述

(2) 运行报错'latin-1' codec can't encode characters in position 8-9: ordinal not in range(256)

在这里插入图片描述
解决方法: 修改utils.py文件

r = s.encode('latin-1')
if len(s) < 2:
bc[s] = r
return r

改为:
在这里插入图片描述
(3) 修改utils.py文件运行报错

tab和空格混用:
在这里插入图片描述

2 批量合并

def concat_pdf(filename, read_dirpath, save_filepath):
    """
    合并多个PDF文件
    @param filename:文件名
    @param read_dirpath:要合并的PDF目录
    @param save_filepath:合并后的PDF文件路径
    @return:
    """
    pdf_writer = PdfFileWriter()
    # 对文件名进行排序
    list_filename = os.listdir(read_dirpath)
    list_filename.sort(key=lambda x: int(x[:-4].replace(filename, "")))
    for filename in list_filename:
        print(filename)
        filepath = os.path.join(read_dirpath, filename)
        # 读取文件并获取文件的页数
        pdf_reader = PdfFileReader(filepath)
        pages = pdf_reader.getNumPages()
        # 逐页添加
        for page in range(pages):
            pdf_writer.addPage(pdf_reader.getPage(page))
    # 保存合并后的文件
    with open(save_filepath, "wb") as out:
        pdf_writer.write(out)
    print("文件已成功合并，保存路径为："+save_filepath)

3. 提取文字内容

涉及到具体的 PDF 内容操作，本小节需要用到 pdfplumber 这个库

在进行文字提取的时候，主要用到 extract_text 这个函数

具体代码如下：

def extract_text_info(filepath):
    """
    提取PDF中的文字
    @param filepath:文件路径
    @return:
    """
    with pdfplumber.open(filepath) as pdf:
        # 获取第2页数据
        page = pdf.pages[1]
        print(page.extract_text())

可以看到，直接通过下标即可定位到相应的页码，从而通过 extract_text 函数提取该也的所有文字

而如果想要提取所有页的文字，只需要改成：

with pdfplumber.open(filepath) as pdf:
	# 获取全部数据
	for page in pdf.pages
    	print(page.extract_text())

例如，提取“易方达中小盘混合型证券投资基金2020年中期报告” 第一页的内容时，源文件是这样的：

运行代码后提取出来是这样的：

4. 提取表格内容

同样的，本节是对具体内容的操作，所以也需要用到 pdfplumber 这个库

和提取文字十分类似的是，提取表格内容只是将 extract_text 函数换成了 extract_table 函数

对应的代码如下：

def extract_table_info(filepath):
    """
    提取PDF中的图表数据
    @param filepath:
    @return:
    """
    with pdfplumber.open(filepath) as pdf:
        # 获取第18页数据
        page = pdf.pages[17]
        # 如果一页有一个表格，设置表格的第一行为表头，其余为数据
        table_info = page.extract_table()
        df_table = pd.DataFrame(table_info[1:], columns=table_info[0])
        df_table.to_csv('dmeo.csv', index=False, encoding='gbk')

上面代码可以获取到第 18 页的第一个表格内容，并且将其保存为 csv 文件存在本地

但是，如果说第 18 页有多个表格内容呢？

因为读取的表格会被存成二维数组，而多个二维数组就组成一个三维数组

遍历这个三位数组，就可以得到该页的每一个表格数据，对应的将 extract_table 函数改成 extract_tables 即可

具体代码如下：

# 如果一页有多个表格，对应的数据是一个三维数组
tables_info = page.extract_tables()
for index in range(len(tables_info)):
    # 设置表格的第一行为表头，其余为数据
    df_table = pd.DataFrame(tables_info[index][1:], columns=tables_info[index][0])
    print(df_table)
    # df_table.to_csv('dmeo.csv', index=False, encoding='gbk')

以“易方达中小盘混合型证券投资基金2020年中期报告” 第 xx 页的第一个表格为例：

源文件中的表格是这样的：

提取并存入 excel 之后的表格是这样的：

5. 提取图片内容

提取 PDF 中的图片和将 PDF 转存为图片是不一样的（下一小节），需要区分开。

提取图片：顾名思义，就是将内容中的图片都提取出来；转存为图片：则是将每一页的 PDF 内容存成一页一页的图片，下一小节会详细说明

转存为图片中，需要用到一个模块叫 fitz，fitz 的最新版 1.18.13，非最新版的在部分函数名称上存在差异，代码中会标记出来

使用 fitz 需要先安装 PyMuPDF 模块，安装方式如下：

pip install PyMuPDF

提取图片的整体逻辑如下：

使用 fitz 打开文档，获取文档详细数据
遍历每一个元素，通过正则找到图片的索引位置
使用 Pixmap 将索引对应的元素生成图片
通过 size 函数过滤较小的图片

实现的具体代码如下：

if not os.path.exists(pic_dirpath):
    os.makedirs(pic_dirpath)
# 使用正则表达式来查找图片
check_XObject = r"/Type(?= */XObject)"
check_Image = r"/Subtype(?= */Image)"
img_count = 0

"""1. 打开pdf，打印相关信息"""
pdf_info = fitz.open(filepath)
# 1.16.8版本用法 xref_len = doc._getXrefLength()
# 最新版本写法
xref_len = pdf_info.xref_length()
# 打印PDF的信息
print("文件名：{}, 页数: {}, 对象: {}".format(filepath, len(pdf_info), xref_len-1))

"""2. 遍历PDF中的对象，遇到是图像才进行下一步，不然就continue"""
for index in range(1, xref_len):
    # 1.16.8版本用法 text = doc._getXrefString(index)
    # 最新版本
    text = pdf_info.xref_object(index)
    
    is_XObject = re.search(check_XObject, text)
    is_Image = re.search(check_Image, text)
    # 如果不是对象也不是图片，则不操作
    if is_XObject or is_Image:
        img_count += 1
        # 根据索引生成图像
        pix = fitz.Pixmap(pdf_info, index)
        pic_filepath = os.path.join(pic_dirpath, 'img_' + str(img_count) + '.png')
        """pix.size 可以反映像素多少，简单的色素块该值较低，可以通过设置一个阈值过滤。以阈值 10000 为例过滤"""
        # if pix.size < 10000:
        #     continue
        
        """三、 将图像存为png格式"""
        if pix.n >= 5:
            # 先转换CMYK
            pix = fitz.Pixmap(fitz.csRGB, pix)
        # 存为PNG
        pix.writePNG(pic_filepath)

以本节示例的“易方达中小盘混合型证券投资基金2020年中期报告” 中的图片为例，代码运行后提取的图片如下：

这个结果和文档中的共 1 张图片的 结果符合

参考资料

https://pythonhosted.org/PyPDF2/官方文档
https://blog.csdn.net/qq_44885233/article/details/113568903PyPDF2–如何使用python操作你的PDF文档

余柳成荫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
20210622_26期_办公自动化_Task4_Python 操作 PDF

四、Python 操作 PDF目录四、Python 操作 PDF来源1 PDF拆分参考资料来源Datewhle26期__Python办公自动化 :https://github.com/datawhalechina/team-learning-program/tree/master/OfficeAutomation作者:牧小熊、刘雯静、张晓东、吴争光、隆军论坛地址：http://datawhale.club/t/topic/15741 PDF拆分1 打开/读取文档参考资料ht
复制链接

扫一扫