python读取docx文件
1、安装包:
先前试用过很多包,都不管用,读取文件时候会出现如下错误:
pywintypes.com_error: (-2147352567, '发生意外。', (0, 'Kingsoft WPS', '文档保存失败。', '', 3011, -2147467259), None)
最后改成docx包,其安装的module为:
pip install python-docx
2、进行读取一个docx文件
其中一定要docx文件,如果是doc文件进行改后缀成docx是会有问题的,导致读取的文件一直是空的,需要原生态就是使用docx创建的文件。
import re,os
from docx import Document
def remove_chinese_line(doc):
for paragraph in doc.paragraphs:
temp=paragraph.text
#判断是否是中文
cls_idx=re.sub('[\u4e00-\u9fa5]', '', temp)
print(cls_idx)
#进行删除对应的段落
if cls_idx!=temp:
p=paragraph._element
p.getparent().remove(p)
p._p=p._element=None
return doc
if __name__ == '__main__':
root="temp/input"
input_files= os.listdir(root)
for item in input_files:
cur_file=os.path.join(root,item)
document = Document(cur_file)
doc=remove_chinese_line(document)
doc.save(cur_file)
其是读取某个目录下的所有docx文件,去除中文后,然后进行保存到源文件。

本文介绍如何使用Python的python-docx包读取DOCX文件,并提供了一个示例程序,该程序能够读取指定目录下的所有DOCX文件,移除其中的中文内容后保存回原文件。
1870

被折叠的 条评论
为什么被折叠?



