深度解析:从DOCX中智能提取正文、表格和图片

引言

在现代软件开发过程中,测试工程师经常需要处理大量的文档资料。无论是产品说明书、技术规范还是用户手册,这些文档通常以Word(.docx)格式存储。如何快速准确地从中提取所需信息成为了一个挑战。本文将详细介绍一种基于Python的智能方法,通过解析Word文档来提取指定的正文内容、表格以及嵌入的图片,并结合阿里云百炼deepseek-r1接口进行高级应用开发。基于之前的Deepseek API+Python 测试用例一键生成与导出 V1.0.6(加入分块策略,返回更完整可靠),由于读取文档时,未完全适配同时输入文本标题、表格标题、图片标题的情形,本次主要是调试同时输入三种类型标题时的内容预览情况。实测见下图:
在这里插入图片描述


一、准备工作

首先,确保你已经安装了必要的Python库:

pip install python-docx opencv-python paddleocr lxml

这些库分别用于处理.docx文件(python-docx)、图像处理(opencv-python)、OCR文字识别(paddleocr)以及XML解析(lxml)。


二、正文内容提取

代码讲解:

from docx import Document

def extract_content(doc_path, title_keywords):
    result = {
   }
    doc = Document(doc_path)
    # 清理目录部分...
    for keyword in title_keywords.split(','):
        content = []
        capture = False
        for para in doc.paragraphs:
            if keyword in para.text and 'toc' not in para.style.name.lower():
                capture = True
                content.append(para.text.strip())
                continue
            if capture:
                if re.match(r"^\d+(\.\d+)*\s+.+", para.text.strip()):
                    break
                content.append(para.text.strip())
        result[keyword] = "\n".join(content)
    return result
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包

    打赏作者

    Python测试之道

    你的鼓励将是我创作的最大动力

    ¥1 ¥2 ¥4 ¥6 ¥10 ¥20
    扫码支付:¥1
    获取中
    扫码支付

    您的余额不足,请更换扫码支付或充值

    打赏作者

    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值