python-docx模块处理word文档
- docx文件
docx是Microsoft Office2007之后版本使用的,用新的基于XML的压缩文件格式取代了其目前专有的默认文件格式,在传统的文件名扩展名后面添加了字母“x”
docx格式的文件本质上是一个ZIP文件。将一个docx文件的后缀改为ZIP后是可以用解压工具打开或是解压的。事实上,Word2007的基本文件就是ZIP格式的
docx文档包含的内容有以下四类
- 段落: 文本 样式-判断段落的种类
- 表格
- 图片
- 其它插入的文件对象
代码操作流程
- 命令行安装 pip install python-docx
- 打开pycharm导入 import docx