基于所作项目对word文档有所了解,浅浅记录一下自己的一些发现与见解,如有不对,欢迎指正。
word文档中有价值的数据其实不外乎是文字与图片。
如果要简单实现word中文本信息的提取,可以依赖于spire.doc。
导入依赖
<repositories>
<repository>
<id>com.e-iceblue</id>
<name>e-iceblue</name>
<url>https://repo.e-iceblue.cn/repository/maven-public/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.doc</artifactId>
<version>11.8.1</version>
</dependency>
</dependencies>
String tmp_doc ="xxxxx.docx";
Document doc = new Document();
doc.loadFromFile(tmp_doc, FileFormat.Doc);
doc.saveToFile("test.txt",FileFormat.Txt);
spire.doc还有python,.NET等开发语言的版本,足以满足常规对word文档处理的需求。