java解析word(.docx)文档

一、首先我们要了解一下XWPFDocument中在解析时使用到的对象
XWPFParagraph :段落
XWPFPictureData : 图片
XWPFTable :表格

二、固定模板的docx文档
模板解析文档
这里是我自己定义的文档文件,我需要取出表格中的数据,以及文档日期;因为我现在做的大多是金融项目,涉及的解析还比较简单,主要是用户在使用过程中需要上传文档,然后调用后端接口解析出文档中的金额日期数据返回给前端,填充在指定位置以供参考;

三、核心代码示例:

/**
   * 获取固定格式docx文档的数据信息
   * @param file
   */
  public void wordIndentify(MultipartFile file){
    try {
      XWPFDocument xwpfDocument = new XWPFDocument(file.getInputStream());
      //根据解析文档我们需要获取文档中第一个表格
      List<XWPFTable> xwpfTables = xwpfDocument.getTables();
      //获取表格的第二行数据的所有单元格
      List<XWPFTableCell> xwpfTableCells = xwpfTables.get(0).getRows().get(1).getTableCells();
      //获取表格第二行数据中每个单元格的文本值
      String insAmt = xwpfTableCells.get(0).getText();
      String insPrice = xwpfTableCells.get(1).getText();
      String insQty = xwpfTableCells.get(2).getText();
      //文档日期 获取文档中第二个段落的第二个文本的值
      String content = xwpfDocument.getParagraphs().get(1).getRuns().get(1).getText(0);
      String date = content.replaceAll("年","").replaceAll("月","").replaceAll("日","");
      //这里由于只是测试所以直接把获得的数据打印出来验证下就好了,实际中这个文档应该是流程中提供的官网文档,会落入数据库中或使用在一定业务场景
      log.info("金额:"+insAmt+";价格:"+insPrice+";数量:"+insQty+";日期:"+date);
      System.out.println("金额:"+insAmt+";价格:"+insPrice+";数量:"+insQty+";日期:"+date);
    } catch (IOException e) {
      e.printStackTrace();
    }
  }

因为已知文档是固定格式的,所以取值时可以精确到哪个表格哪行哪个单元格;
断点后可以明显看见段落信息和表格信息,就可以校验取值是否正确;
获得的文档信息

对于XWPFDocument的更多使用我之前有看过一篇文档,连接就放这了:
https://www.cnblogs.com/unruly/p/7479518.html

POI是Apache的一个开源项目,可以到Apache网站下载相应的jar包文件,及其源文件。 POI提供了提取一些非TXT文本中文本内容的API,比如提取Word,Excel等,使用起来非常方便。 为了说明POI提起Word文件的方便和简单,通过提取一个Word文件的文本来,来了解POI API的功能。 假设在本地磁盘中存在一个Word文件 E:\POI\word\JBoss3.0 下配置和部署EJB简介.doc文件是具有格式的,内容如图所示: 下面看看提取它的内容是多么简单。 首先从Apache网站上下载POI的相关jar包。 新建一个测试类: package org.shirdrn.word; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import org.apache.poi.hwpf.extractor.WordExtractor; public class MyWordExtractor { public static void main(String[] args) { File file = new File("E:\\POI\\word\\JBoss3.0 下配置和部署EJB简介.doc"); try { FileInputStream fis = new FileInputStream(file); WordExtractor wordExtractor = new WordExtractor(fis); System.out.println("【 使用getText()方法提取的Word文件的内容如下所示:】"); System.out.println(wordExtractor.getText()); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } } 提取Word文件的文本内容,打印到控制台上,如下所示: 使用WordExtractor类的getTextFromPieces()方法提取: wordExtractor.getTextFromPieces(); 结果和上面是一样的。 WordExtractor类还有一个可以提取Word文件的各个段落的方法getParagraphText(),返回一个String[]数组,数组中每个元素为一个段的文本内容。 这里,对Word文件中换行也看成是一个段,测试如下: package org.shirdrn.word; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import org.apache.poi.hwpf.extractor.WordExtractor; public class MyWordExtractor { public static void main(String[] args) { File file = new File("E:\\POI\\word\\JBoss3.0 下配置和部署EJB简介.doc"); try { FileInputStream fis = new FileInputStream(file); WordExtractor wordExtractor = new WordExtractor(fis); System.out.println("【 使用getText()方法提取的Word文件的内容如下所示:】"); String[] paragraph = wordExtractor.getParagraphText(); System.out.println("该Word文件共有"+paragraph.length+"段。"); for(int i=0;i<paragraph.length;i++){ System.out.println(""); System.out.println(paragraph[i]); } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } } 提取Word文件的文本内容,打印到控制台上,如下所示: 从上面的Word文件可以看出,最后一行是Word文件的一个换行符,使用WordExtractor提取时,也把它默认成为一个段,因为一个段结束后应该有一个回车换行符。 如果有多个Word文件,而且放在不同的目录下,要提取它们的文本内容,可以实现一个递归的函数,通过深度遍历,为每一个Word文件进行提取。 如果需要,可以将提取到的Word文件的文本内容输出到本地磁盘中,比如以txt记事本的根式保存。 从上面可以看出,提取Word文件的文本内容,实际上是将Word文件的格式去掉了,获取到文本的内容。
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值