[Python] 如何导出PDF文件中的图片

写代码的老书生

已于 2024-04-02 23:51:10 修改

阅读量1.2k

点赞数 28

分类专栏： Python 文章标签： python pdf

于 2024-03-31 23:59:05 首次发布

本文链接：https://blog.csdn.net/xu7382/article/details/137211997

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

cover

一、背景说明

最近在看一份pdf的书籍，其中有一些图片绘制地比较出色，所以就打算将其复制出来，以便于在需要的时候进行使用。

但是令人无奈的是，pdf中的图片是无法直接另存为的。搜了一些网上的做法，要么是需要收费，要么就需要上传文件到某些网站… 总之方案都不是很理想。

偶然之下了解到Python的fitz这个组件，据说是可以导出PDF中的图片的。所以，在一番学习之下写了一个小的工具，成功导出了所需的图片。

出于备忘的需要，也为了将该方法分享给广大的小伙伴，和我一起享受从PDF中导出图片的自由，所以就有了本文的诞生。

二、代码编写

闲言少叙，直接上代码：

import fitz
import os

# 打开文件
pdf_file_name = "E:/books/xxx.pdf"

# 提取图片函数
def extract_pics(file_name, extract_path):

    # 1.打开文件
    doc = fitz.open(file_name)

    #文档页数
    page_count = len(doc)
    print("文档共有{}页".format(page_count))

    # 2.遍历并检查每页的图片
    image_count = 0
    for i in range(page_count):
        # 页面对象
        page = doc[i]

        # 获取图片列表
        images = page.get_images()

        # 遍历图片
        for image in images:
            # 返回图片引用
            xref = image[0]

            # 根据引用从pdf中释放出图片
            base_image = doc.extract_image(xref)
            #获得图片数据
            image_data = base_image["image"]
            # 保存图片
            if not os.path.exists(extract_path):
                os.makedirs(extract_path)
            with open(f'{extract_path}/image_{image_count}.png', 'wb') as f:
                f.write(image_data)
                image_count = image_count + 1
    
    # 3.关闭打开的pdf
    doc.close()
    return image_count

count = extract_pics(pdf_file_name, "./pics")
print("导出 {} 张图片".format(count))

代码思路：

将待导出图片的文件名，定义为一个变量。传入提取图片函数，作为第一个参数。
将图片导出的目标路径作为函数的第二个参数
函数所做的事情如下：

打开pdf文档。打开文档后会返回一个文档的引用，类型是fitz.Document对象。

page.get_images()，会返回page对象中定义的图片列表。列表的每一个元素的结构是：[xref， smask， ...]，所以说该方法的结果是数组的列表。我们可以看出：每个元素的第一个值就是xref。

所以代码 xref = image[0] 就是为了获取图片的交叉引用。

而官方文档有这么一句：

Extract the image with img = doc.extract_image(xref). This is a dictionary containing the binary image data as img[“image”].

来源：https://pymupdf.readthedocs.io/en/latest/recipes-images.html#how-to-extract-images-pdf-documents

就是说：通过代码 img = doc.extract_image(xref) 可以提取图片。这个方法的返回值是一个字典。通过字典的 img["image"] 可以获取二进制的图片数据。