python读取word文档

这段代码演示了如何使用Python的`docx`库来读取DOCX文件,包括输出文章的标题、一级标题、多级标题、正文、段落内容以及保存文件。通过遍历文档的段落,可以根据段落的样式名称来区分标题和正文,从而提取关键信息。
摘要由CSDN通过智能技术生成

读取文件内容

from docx import Document
file = Document("E:\\File\\大一\\大一下学期/马克思.docx")

我们直接输出文章内容是不可以的:

print(file)
# <docx.document.Document object at 0x000002686EE048C0>

我们可以使用循环的方式进行输出text文本:

# 输出内容
for run in file.paragraphs:
    print(run.text)

输出文章的标题

输出文章的1级标题

for run in file.paragraphs:
    if run.style.name == "Heading 1":    # 'Heading 2' 表示二级标题...
        print(run.text)

输出文章的多级标题

# 输出所有标题
for run in file.paragraphs:
    if re.match('^Heading \d+$', run.style.name):
        print(run.text)

输出正文

# 输出正文
for run in file.paragraphs:
    if run.style.name == "Normal":
        print(run.text)

输出段落内容:

输出一段的内容

file.paragraphs[0].text
# 如果该段为空格或者其他非段落内容,则输出这一行

输出所有段落的内容

for i in range(len(file.paragraphs)):
    print(i, file.paragraphs[0].text)

保存文章

file.save("E:/aa.docx")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值