- 博客(3)
- 收藏
- 关注
原创 了解与解析word文档(2)——基于java poi
调用poi可获取body下的每一个标签<w:p>存储段落,<w:tbl>存储表格,<w:sectPr>存储一些文章页面设置的属性值。将docx文件的后缀更改为zip后,即可解压该文件,获得如图所示文件夹。文档内容大部分存储于document.xml中,通过poi我们可以获取document.xml中的所有数据。基于poi对docx格式的文档进行解析则复杂很多,在这之前,需要先对docx文档有一定的认知。在我的需求场景中需要遍历获取所有的节点。其中文档基本信息存储于“word”文件夹中。
2024-04-16 10:19:28 279
原创 了解与解析word文档(1)——基于java poi
spire.doc还有python,.NET等开发语言的版本,足以满足常规对word文档处理的需求。基于所作项目对word文档有所了解,浅浅记录一下自己的一些发现与见解,如有不对,欢迎指正。如果要简单实现word中文本信息的提取,可以依赖于spire.doc。word文档中有价值的数据其实不外乎是文字与图片。
2024-04-15 18:05:40 115
原创 Java实现doc文档转换为docx文档
我这里的文档存储在服务器上,导入的参数为url网址。可以利用aspose-words依赖实现。在pom.xml中引入依赖。
2024-04-15 14:58:36 465 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人