java解析word（.docx）文档

最新推荐文章于 2024-07-26 16:03:13 发布

过客匆匆@1

最新推荐文章于 2024-07-26 16:03:13 发布

阅读量7.1k

点赞数 1

分类专栏： docx文档解析文章标签： Apache POI DOCX解析表格数据日期提取金融项目

本文链接：https://blog.csdn.net/weixin_43779185/article/details/115717090

版权

docx文档解析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、首先我们要了解一下XWPFDocument中在解析时使用到的对象
XWPFParagraph ：段落
XWPFPictureData ：图片
XWPFTable ：表格

二、固定模板的docx文档
模板解析文档
这里是我自己定义的文档文件，我需要取出表格中的数据，以及文档日期；因为我现在做的大多是金融项目，涉及的解析还比较简单，主要是用户在使用过程中需要上传文档，然后调用后端接口解析出文档中的金额日期数据返回给前端，填充在指定位置以供参考；

三、核心代码示例：

/**
   * 获取固定格式docx文档的数据信息
   * @param file
   */
  public void wordIndentify(MultipartFile file){
    try {
      XWPFDocument xwpfDocument = new XWPFDocument(file.getInputStream());
      //根据解析文档我们需要获取文档中第一个表格
      List<XWPFTable> xwpfTables = xwpfDocument.getTables();
      //获取表格的第二行数据的所有单元格
      List<XWPFTableCell> xwpfTableCells = xwpfTables.get(0).getRows().get(1).getTableCells();
      //获取表格第二行数据中每个单元格的文本值
      String insAmt = xwpfTableCells.get(0).getText();
      String insPrice = xwpfTableCells.get(1).getText();
      String insQty = xwpfTableCells.get(2).getText();
      //文档日期 获取文档中第二个段落的第二个文本的值
      String content = xwpfDocument.getParagraphs().get(1).getRuns().get(1).getText(0);
      String date = content.replaceAll("年","").replaceAll("月","").replaceAll("日","");
      //这里由于只是测试所以直接把获得的数据打印出来验证下就好了，实际中这个文档应该是流程中提供的官网文档，会落入数据库中或使用在一定业务场景
      log.info("金额："+insAmt+";价格："+insPrice+";数量："+insQty+";日期："+date);
      System.out.println("金额："+insAmt+";价格："+insPrice+";数量："+insQty+";日期："+date);
    } catch (IOException e) {
      e.printStackTrace();
    }
  }

因为已知文档是固定格式的，所以取值时可以精确到哪个表格哪行哪个单元格；
断点后可以明显看见段落信息和表格信息，就可以校验取值是否正确；
获得的文档信息