自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 了解与解析word文档(2)——基于java poi

调用poi可获取body下的每一个标签<w:p>存储段落,<w:tbl>存储表格,<w:sectPr>存储一些文章页面设置的属性值。将docx文件的后缀更改为zip后,即可解压该文件,获得如图所示文件夹。文档内容大部分存储于document.xml中,通过poi我们可以获取document.xml中的所有数据。基于poi对docx格式的文档进行解析则复杂很多,在这之前,需要先对docx文档有一定的认知。在我的需求场景中需要遍历获取所有的节点。其中文档基本信息存储于“word”文件夹中。

2024-04-16 10:19:28 279

原创 了解与解析word文档(1)——基于java poi

spire.doc还有python,.NET等开发语言的版本,足以满足常规对word文档处理的需求。基于所作项目对word文档有所了解,浅浅记录一下自己的一些发现与见解,如有不对,欢迎指正。如果要简单实现word中文本信息的提取,可以依赖于spire.doc。word文档中有价值的数据其实不外乎是文字与图片。

2024-04-15 18:05:40 115

原创 Java实现doc文档转换为docx文档

我这里的文档存储在服务器上,导入的参数为url网址。可以利用aspose-words依赖实现。在pom.xml中引入依赖。

2024-04-15 14:58:36 465 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除