实现后的效果
python-docx模块虽然强大,但却不能处理后缀为".doc"的word文件。如果强制读取doc文件,将会报如下错误。
寻找需要转换的绝对路径
#Jupyter cell同时输出多行
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
#为了找到文件夹的绝对路径,所以获取当前工作目录路径
import os
os.getcwd() #获取当前工作目录路径
os.path.abspath('.') #获取当前工作目录路径
os.path.abspath('data') #获取当前目录文件下的工作目录路径
os.path.abspath('..') #获取当前工作的父目录 !注意是父目录路径
os.path.abspath(os.curdir) #获取当前工作目录路径
''''C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化\\将doc批量转换成docx'
'C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化\\将doc批量转换成docx'
'C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化\\将doc批量转换成docx\\data'
'C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化'
'C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化\\将doc批量转换成docx' '''
注意文件夹层级使用两个反斜杠"\",其中一个斜杠是另一个的转义。
import os #用于获取目标文件所在路径
path='C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化\\将doc批量转换成docx\\data\\' # 文件夹绝对路径
files=[]
for file in os.listdir(path):
if file.endswith(".doc"): #排除文件夹内的其它干扰文件,只获取".doc"后缀的word文件
files.append(path+file)
files
'''['C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化\\将doc批量转换成docx\\data\\公司001合同.doc',
'C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化\\将doc批量转换成docx\\data\\公司002合同.doc',
'C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化\\将doc批量转换成docx\\data\\公司003合同.doc',
'C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化\\将doc批量转换成docx\\data\\公司004合同.doc',
'C:\\Users\\陌微凉\\PycharmProjects\\2020办公自动化\\将doc批量转换成docx\\data\\公司005合同.doc'] '''
完成!
from win32com import client as wc #导入模块
word = wc.Dispatch("Word.Application") # 打开word应用程序
for file in files:
# print(file)
doc = word.Documents.Open(file) #打开word文件
doc.SaveAs("{}x".format(file), 12)#另存为后缀为".docx"的文件,其中参数12指docx文件
doc.Close() #关闭原来word文件
word.Quit()
print("完成!")