【Python】从 Word 文档中提取图片并生成 PPT_提取word文档中嵌入的文件python-CSDN博客

本文链接：https://blog.csdn.net/xun527/article/details/146533363

在日常办公场景中，我们经常需要从 Word 文档中提取图片，并将这些图片整理到 PowerPoint 幻灯片中。手动完成这一任务既耗时又容易出错。本文将介绍如何使用 Python 编程语言和相关库（如 python-docx 和 python-pptx）实现自动化处理，快速从多个 Word 文件中提取图片并生成对应的 PPT 文件。

背景与需求

假设你有一个文件夹，里面包含多个 .docx 格式的 Word 文档，每个文档中嵌入了若干图片。你的目标是：

提取图片：从每个 Word 文档中提取所有嵌入的图片。
生成 PPT：为每张图片创建一个独立的幻灯片，并将其插入到 PowerPoint 文件中。
批量处理：能够一次性处理文件夹中的所有 Word 文档。

通过 Python 的强大功能，我们可以轻松实现这一流程。

解决方案概述

我们将使用以下 Python 库来完成任务：

python-docx：用于读取 Word 文档内容。
python-pptx：用于创建 PowerPoint 幻灯片。
Pillow：用于处理图片尺寸和格式。
io：用于处理内存中的二进制数据流。

整个流程分为以下几个步骤：

遍历指定文件夹中的所有 Word 文件。
使用 python-docx 提取 Word 文档中的图片。
将提取的图片插入到 PowerPoint 幻灯片中。
保存生成的 PPT 文件。

代码解析

以下是完整的 Python 代码及其详细说明：

from docx import Document
from pptx import Presentation
from pptx.util import Inches
from PIL import Image
import io
import os

# 指定包含 Word 文件的文件夹路径
folder_path = r"C:\Users\Administrator\Desktop\tt"  # 修改为你的文件夹路径

# 遍历文件夹中的所有 Word 文件
for filename in os.listdir(folder_path):
    if filename.endswith(".docx"):
        word_path = os.path.join(folder_path, filename)
        ppt_name = os.path.splitext(filename)[0] + ".pptx"
        ppt_path = os.path.join(folder_path, ppt_name)

        print(f"正在处理：{filename}")

        try:
            # 尝试读取Word文件
            doc = Document(word_path)

        except Exception as e:
            print(f"❌ 无法读取文件 {filename}: {e}")
            continue  # 跳过当前文件，处理下一个

        # 创建PPT演示文稿
        prs = Presentation()

        # 提取图片并插入PPT
        for para in doc.paragraphs:
            for run in para.runs:
                blip = run._r.find('.//a:blip', namespaces={'a': 'http://schemas.openxmlformats.org/drawingml/2006/main'})
                if blip is not None:
                    embed_id = blip.get('{http://schemas.openxmlformats.org/officeDocument/2006/relationships}embed')
                    if embed_id and embed_id in run.part.related_parts:
                        image_part = run.part.related_parts[embed_id]
                        img_stream = io.BytesIO(image_part.blob)

                        # 打开图片
                        img = Image.open(img_stream)
                        img_width, img_height = img.size

                        # 创建PPT幻灯片
                        slide = prs.slides.add_slide(prs.slide_layouts[6])

                        # 设置PPT大小与图片尺寸一致
                        prs.slide_width = Inches(img_width / 100)
                        prs.slide_height = Inches(img_height / 100)

                        # 将图片添加到幻灯片
                        slide.shapes.add_picture(img_stream, 0, 0, width=Inches(img_width / 100), height=Inches(img_height / 100))

        # 保存PPT
        prs.save(ppt_path)
        print(f"✅ 生成PPT：{ppt_path}")

print("所有文件处理完成！🎯")

代码核心逻辑说明

遍历文件夹：
- 使用 os.listdir() 遍历指定文件夹中的所有文件，并筛选出 .docx 格式的文件。
读取 Word 文件：
- 使用 python-docx 的 Document 类加载 Word 文档。
- 如果文件损坏或无法读取，捕获异常并跳过该文件。
提取图片：
- 遍历 Word 文档中的段落 (paragraphs) 和运行块 (runs)。
- 使用 XML 命名空间查找嵌入的图片资源 (blip)，并通过 embed_id 获取图片的二进制数据。
创建 PPT 幻灯片：
- 使用 python-pptx 创建一个新的 PowerPoint 演示文稿。
- 为每张图片创建一个空白幻灯片，并调整幻灯片尺寸以适应图片。
保存 PPT 文件：
- 将生成的 PPT 文件保存到指定路径，并打印成功信息。