python读取word文档

最新推荐文章于 2024-09-05 09:15:00 发布

江东

最新推荐文章于 2024-09-05 09:15:00 发布

阅读量2.6k

点赞数 4

分类专栏： Python办公自动化文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_51756104/article/details/121532296

版权

2 篇文章 0 订阅

订阅专栏

这段代码演示了如何使用Python的`docx`库来读取DOCX文件，包括输出文章的标题、一级标题、多级标题、正文、段落内容以及保存文件。通过遍历文档的段落，可以根据段落的样式名称来区分标题和正文，从而提取关键信息。

摘要由CSDN通过智能技术生成

from docx import Document
file = Document("E:\\File\\大一\\大一下学期/马克思.docx")

我们直接输出文章内容是不可以的：

print(file)
# <docx.document.Document object at 0x000002686EE048C0>

我们可以使用循环的方式进行输出text文本：

# 输出内容
for run in file.paragraphs:
    print(run.text)

for run in file.paragraphs:
    if run.style.name == "Heading 1":    # 'Heading 2' 表示二级标题...
        print(run.text)

# 输出所有标题
for run in file.paragraphs:
    if re.match('^Heading \d+$', run.style.name):
        print(run.text)

# 输出正文
for run in file.paragraphs:
    if run.style.name == "Normal":
        print(run.text)

file.paragraphs[0].text
# 如果该段为空格或者其他非段落内容，则输出这一行

for i in range(len(file.paragraphs)):
    print(i, file.paragraphs[0].text)

file.save("E:/aa.docx")

关注

专栏目录