用Python将PDF转图片

最新推荐文章于 2024-07-20 20:13:06 发布

程序员小八

最新推荐文章于 2024-07-20 20:13:06 发布

阅读量1.6k

点赞数 21

文章标签： python pdf swift 开发语言 powerpoint word 自动化

本文链接：https://blog.csdn.net/z099164/article/details/138181625

版权

本文介绍了如何使用Python的PyMuPDF库处理PDF，将其每一页转换为图片，然后利用PIL库将图片合并成一张长图片，适合创建长卷轴式图像。详细步骤包括环境配置和提供示例脚本。

摘要由CSDN通过智能技术生成

使用 PyMuPDF 和 PIL 将 PDF 转换为图片并合并

1. 简介

本教程将指导您如何使用 Python 和 PyMuPDF 库将 PDF 文档的每一页转换为图片，并使用 PIL（Pillow）库将这些图片垂直合并成一张长图片。这种方法对于创建长卷轴式的图像或文档非常有用。

2. 环境设置

在开始之前，请确保您的环境中已安装了 Python 和以下库：

PyMuPDF：用于处理 PDF 文件。
Pillow（PIL）：用于图像处理。您可以使用 pip 安装这些库（如果尚未安装）：

pip install PyMuPDF Pillow

3. 脚本

import fitz  # PyMuPDF

def convert_pdf_to_images(pdf_path, output_folder, resolution, color_mode='rgb'):
    # 打开 PDF 文件
    pdf_document = fitz.open(pdf_path)

    # 遍历 PDF 中的每一页
    for page_number in range(len(pdf_document)):
        page = pdf_document[page_number]

        # 获取页面的原始大小（以点为单位）
        zoom_x = resolution / page.rect.width
        zoom_y = resolution / page.rect.height

        # 使用最小的缩放比例以确保整个页面都适应目标分辨率
        zoom = min(zoom_x, zoom_y)

        # 创建一个矩阵来应用缩放和抗锯齿
        mat = fitz.Matrix(zoom, zoom)

        # 将 PDF 页面转换为图片，指定分辨率、颜色模式和抗锯齿
        pix = page.get_pixmap(matrix=mat, alpha=False, colorspace=color_mode)

        # 定义输出图片的路径
        output_path = f"{output_folder}/page_{page_number + 1}.png"

        # 保存图片
        pix.save(output_path)

    # 关闭 PDF 文件
    pdf_document.close()

# 使用函数
if __name__ == '__main__':
    convert_pdf_to_images("E:/workCode/pythonScript/resources/test.pdf", './resources/output', resolution=2048,
                          color_mode='rgb')

import fitz  # PyMuPDF
from PIL import Image

def convert_pdf_to_images(pdf_path, resolution):
    # 打开 PDF 文件
    pdf_document = fitz.open(pdf_path)

    # 存储所有转换后的图片
    images = []

    # 遍历 PDF 中的每一页
    for page_number in range(len(pdf_document)):
        page = pdf_document[page_number]
        # 获取页面的原始大小（以点为单位）
        zoom_x = resolution / page.rect.width
        zoom_y = resolution / page.rect.height
        # 使用最小的缩放比例以确保整个页面都适应目标分辨率
        zoom = min(zoom_x, zoom_y)

        # 创建一个矩阵来应用缩放和抗锯齿
        mat = fitz.Matrix(zoom, zoom)
        # 将 PDF 页面转换为图片
        pix = page.get_pixmap(matrix=mat)

        # 使用 PIL 的 Image 对象打开图片
        image = image = Image.frombytes("RGB", (pix.width, pix.height), pix.samples)

        # 将图片添加到列表中
        images.append(image)

    # 合并所有图片
    total_height = sum(image.size[1] for image in images)
    combined_image = Image.new('RGB', (images[0].size[0], total_height))

    current_height = 0
    for image in images:
        combined_image.paste(image, (0, current_height))
        current_height += image.size[1]

    # 关闭 PDF 文件
    pdf_document.close()

    return combined_image

# 使用函数
combined_image = convert_pdf_to_images("E:/workCode/pythonScript/resources/test.pdf", resolution=2048)

# 保存合并后的图片
combined_image.save("test.png")

我们将使用两个脚本。第一个脚本 convert_pdf_to_images.py 将 PDF 文件的每一页转换为图片。第二个脚本 merge_images.py 将这些图片合并成一张长图片。

脚本 1：将 PDF 文件的每一页转换为图片

此脚本执行以下操作：

打开指定的 PDF 文件。
遍历 PDF 的每一页。
计算合适的缩放比例，以确保每一页适应目标分辨率。
使用 PyMuPDF 的 get_pixmap() 方法将每一页转换为图片。
将转换后的图片保存到指定的文件夹。重要函数和参数：
fitz.open(): 打开 PDF 文件。
get_pixmap(): 获取页面的像素图。
save(): 保存图片到文件系统。

脚本 2：将 PDF 文件的每一页转换为图片并合并成一张图片

此脚本执行以下操作：

打开 PDF 文件并遍历每一页。
将每一页转换为图片，并保存到一个列表中。
计算合并后图片的总高度。
使用 PIL 的 Image.new() 创建一个新的空白图片。
将所有图片垂直拼接起来。
保存合并后的图片。重要函数和参数：
Image.frombytes(): 从二进制数据创建 PIL 的 Image 对象。
Image.new(): 创建一个新的图片。
paste(): 将图片粘贴到另一个图片上。

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python！

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取）

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

👉Python70个实战练手案例&源码👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错，但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传，朋友们如果需要可以扫描下方CSDN官方认证二维码免费领取【保证100%免费】

程序员小八

关注

21
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
用Python将PDF转图片

本教程将指导您如何使用 Python 和 PyMuPDF 库将 PDF 文档的每一页转换为图片，并使用 PIL（Pillow）库将这些图片垂直合并成一张长图片。这种方法对于创建长卷轴式的图像或文档非常有用。
复制链接

扫一扫