【python-docx】word(docx)格式转化成markdow，python代码

最新推荐文章于 2024-07-25 23:05:14 发布

xagiao

最新推荐文章于 2024-07-25 23:05:14 发布

阅读量802

点赞数

分类专栏： python每日5行文章标签： css html 前端

本文链接：https://blog.csdn.net/xagiao/article/details/122163829

版权

这篇博客介绍了如何利用python-docx库将Word文档的标题转换为Markdown格式，目前实现了标题的转化，后续将扩展到图像和表格的提取。

摘要由CSDN通过智能技术生成

python-docx的使用

说明，通过docx库把word的标题都提取出来，转化成markdown的格式

待完善部分，图像提取，表格提取

demo.py

from docx import Document

path = '2_test.docx'  # 文件路径
wordfile = Document(path)  # 读入文件

paragraphs = wordfile.paragraphs

list_txt = []

title1_number = 0
title2_number = 0

for paragraph in paragraphs:
    print(paragraph.style.name)
    print(paragraph.text)

    if paragraph.style.name == 'Heading 1':
        title1_number += 1
        title1 = f'# {