文件分很多的种类,txt,docx,excel,pdf。。。等等。
但是我们办公常用的,应该word挺多的。word文件保存后分docx和doc两种文件格式。(两种格式具体什么差别,我没去深究,简单理解就是word版本不同,所以存的文件格式不同。)
今天说到的就是word保存为docx格式文件的转换。
这里就要用到python中的一个包:
from pydocx import PyDocX
有了这个包,后面就简单了。
file_path = '/home/tianchao/下载/xx.docx/'
load_html = PyDocX.to_html(file_path)
with open(new_docx_html,