一、报错内容
在解析docx文件内容时报错:
file 'xxx' is not a Word file, content type is 'application/vnd.openxmlformats-officedocument.themeManager+xml'
1.1 报错原因
这个错误可能是因为:
- 尝试打开的文件不是一个有效的 Word 文档。根据错误信息,该文件的内容类型是 `application/vnd.openxmlformats-officedocument.themeManager+xml`,这是一个 Office 主题文件,而不是 Word 文档。
- 尝试打开的文件要是一个有效的 Word 文档,即其扩展名为 `.docx`。
- 如果文件是一个有效的 Word 文档,但仍然报错,可能是python-docx库的问题,需要重新安装 `python-docx` 库。
- 文件路径问题,尝试使用不同的文件路径。
二、解决方案
2.1 解决过程
首先查看文件属性,发现打开方式是wps,文件类型是DOCX
打开方式更改为word,再次运行依旧报错,说明是文件类型的原因。
将文件内容复制一份,在word中新建文件,粘贴内容,查看新文件属性:
解析这个新建的文件,再次运行:
成功运行! ^0^ !
2.2 解决办法
将原docx文档文件更改为word文件【保证文件类型是Microsoft word文档】。