java解析word(.docx)文档

一、首先我们要了解一下XWPFDocument中在解析时使用到的对象
XWPFParagraph :段落
XWPFPictureData : 图片
XWPFTable :表格

二、固定模板的docx文档
模板解析文档
这里是我自己定义的文档文件,我需要取出表格中的数据,以及文档日期;因为我现在做的大多是金融项目,涉及的解析还比较简单,主要是用户在使用过程中需要上传文档,然后调用后端接口解析出文档中的金额日期数据返回给前端,填充在指定位置以供参考;

三、核心代码示例:

/**
   * 获取固定格式docx文档的数据信息
   * @param file
   */
  public void wordIndentify(MultipartFile file){
    try {
      XWPFDocument xwpfDocument = new XWPFDocument(file.getInputStream());
      //根据解析文档我们需要获取文档中第一个表格
      List<XWPFTable> xwpfTables = xwpfDocument.getTables();
      //获取表格的第二行数据的所有单元格
      List<XWPFTableCell> xwpfTableCells = xwpfTables.get(0).getRows().get(1).getTableCells();
      //获取表格第二行数据中每个单元格的文本值
      String insAmt = xwpfTableCells.get(0).getText();
      String insPrice = xwpfTableCells.get(1).getText();
      String insQty = xwpfTableCells.get(2).getText();
      //文档日期 获取文档中第二个段落的第二个文本的值
      String content = xwpfDocument.getParagraphs().get(1).getRuns().get(1).getText(0);
      String date = content.replaceAll("年","").replaceAll("月","").replaceAll("日","");
      //这里由于只是测试所以直接把获得的数据打印出来验证下就好了,实际中这个文档应该是流程中提供的官网文档,会落入数据库中或使用在一定业务场景
      log.info("金额:"+insAmt+";价格:"+insPrice+";数量:"+insQty+";日期:"+date);
      System.out.println("金额:"+insAmt+";价格:"+insPrice+";数量:"+insQty+";日期:"+date);
    } catch (IOException e) {
      e.printStackTrace();
    }
  }

因为已知文档是固定格式的,所以取值时可以精确到哪个表格哪行哪个单元格;
断点后可以明显看见段落信息和表格信息,就可以校验取值是否正确;
获得的文档信息

对于XWPFDocument的更多使用我之前有看过一篇文档,连接就放这了:
https://www.cnblogs.com/unruly/p/7479518.html

评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值