了解与解析word文档(1)——基于java poi

本文介绍了如何使用Spire.doc库来提取Word文档中的文本信息,通过Java示例展示了加载、转换和保存的过程,并提及了该库在其他开发语言版本的可用性。
摘要由CSDN通过智能技术生成

基于所作项目对word文档有所了解,浅浅记录一下自己的一些发现与见解,如有不对,欢迎指正。

word文档中有价值的数据其实不外乎是文字与图片。

如果要简单实现word中文本信息的提取,可以依赖于spire.doc。

导入依赖

<repositories>
        <repository>
            <id>com.e-iceblue</id>
            <name>e-iceblue</name>
            <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
        </repository>
</repositories>

<dependencies>
    <dependency>
         <groupId>e-iceblue</groupId>
         <artifactId>spire.doc</artifactId>
         <version>11.8.1</version>
     </dependency>
</dependencies>

 

String tmp_doc ="xxxxx.docx";
Document doc = new Document();
doc.loadFromFile(tmp_doc, FileFormat.Doc);
doc.saveToFile("test.txt",FileFormat.Txt);

spire.doc还有python,.NET等开发语言的版本,足以满足常规对word文档处理的需求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值