大家知道微软的office,相信doc的格式也大家耳熟能详,doc格式是微软office的word文档的早期格式,但是doc针对使用python进行批量处理时候,是有很多问题。比如:doc格式是以二进制的方式进行存储的,这样python批量解析起来就非常的麻烦。
还好,现在新版本的word是docx格式,docx格式,是以xml格式进行存储。这样就方便了python的批量处理。
以下:是将doc文档转docx的核心代码,供大家参考使用:
import os
import win32com.client as wc # doc转docx用
import time
filename = os.listdir('C:\Auto\1640069756921\') #读取“C:\Auto\1640069756921\'”目录下的doc文件
for i in range(len(filename)):
word = wc.Dispatch("WORD.Application") # 启动word进程
word.displayalerts=0 # 不警告
word.visible=0 # 不显示
doc = word.Documents.Open('C:\Auto\1640069756921\'+filename[i]) # 读取“C:\Auto\1640069756921\'”目录下的doc文件每个文件
doc.SaveAs('c:\new\'+filename[i]+'.docx',12, False, "", True, "", False, False, False, False) #在“C:\Auto\1640069756921\”目录下生成已原doc文件+docx的文件名称
doc.Close()
word.Quit()
time.sleep(3)