python读取docx文件，并进行一些操作

最新推荐文章于 2025-10-09 14:18:58 发布

原创最新推荐文章于 2025-10-09 14:18:58 发布 · 3.5k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python

python 同时被 2 个专栏收录

56 篇文章

订阅专栏

图像处理程序源码

24 篇文章

订阅专栏

本文介绍如何使用Python的python-docx包读取DOCX文件，并提供了一个示例程序，该程序能够读取指定目录下的所有DOCX文件，移除其中的中文内容后保存回原文件。

python读取docx文件

1、安装包：

先前试用过很多包，都不管用，读取文件时候会出现如下错误：

pywintypes.com_error: (-2147352567, '发生意外。', (0, 'Kingsoft WPS', '文档保存失败。', '', 3011, -2147467259), None)

最后改成docx包，其安装的module为：

pip install python-docx

2、进行读取一个docx文件

其中一定要docx文件，如果是doc文件进行改后缀成docx是会有问题的，导致读取的文件一直是空的，需要原生态就是使用docx创建的文件。

import re,os
from docx import Document

def remove_chinese_line(doc):
    for paragraph in doc.paragraphs:
        temp=paragraph.text
        #判断是否是中文
        cls_idx=re.sub('[\u4e00-\u9fa5]', '', temp)
        print(cls_idx)
        #进行删除对应的段落
        if cls_idx!=temp:
            p=paragraph._element
            p.getparent().remove(p)
            p._p=p._element=None
    return doc

if __name__ == '__main__':
    root="temp/input"
    input_files= os.listdir(root)
    for item in input_files:
        cur_file=os.path.join(root,item)
        document = Document(cur_file)
        doc=remove_chinese_line(document)
        doc.save(cur_file)