一、首先我们要了解一下XWPFDocument中在解析时使用到的对象
XWPFParagraph :段落
XWPFPictureData : 图片
XWPFTable :表格
二、固定模板的docx文档
这里是我自己定义的文档文件,我需要取出表格中的数据,以及文档日期;因为我现在做的大多是金融项目,涉及的解析还比较简单,主要是用户在使用过程中需要上传文档,然后调用后端接口解析出文档中的金额日期数据返回给前端,填充在指定位置以供参考;
三、核心代码示例:
/**
* 获取固定格式docx文档的数据信息
* @param file
*/
public void wordIndentify(MultipartFile file){
try {
XWPFDocument xwpfDocument = new XWPFDocument(file.getInputStream());
//根据解析文档我们需要获取文档中第一个表格
List<XWPFTable> xwpfTables = xwpfDocument.getTables();
//获取表格的第二行数据的所有单元格
List<XWPFTableCell> xwpfTableCells = xwpfTables.get(0).getRows().get(1).getTableCells();
//获取表格第二行数据中每个单元格的文本值
String insAmt = xwpfTableCells.get(0).getText();
String insPrice = xwpfTableCells.get(1).getText();
String insQty = xwpfTableCells.get(2).getText();
//文档日期 获取文档中第二个段落的第二个文本的值
String content = xwpfDocument.getParagraphs().get(1).getRuns().get(1).getText(0);
String date = content.replaceAll("年","").replaceAll("月","").replaceAll("日","");
//这里由于只是测试所以直接把获得的数据打印出来验证下就好了,实际中这个文档应该是流程中提供的官网文档,会落入数据库中或使用在一定业务场景
log.info("金额:"+insAmt+";价格:"+insPrice+";数量:"+insQty+";日期:"+date);
System.out.println("金额:"+insAmt+";价格:"+insPrice+";数量:"+insQty+";日期:"+date);
} catch (IOException e) {
e.printStackTrace();
}
}
因为已知文档是固定格式的,所以取值时可以精确到哪个表格哪行哪个单元格;
断点后可以明显看见段落信息和表格信息,就可以校验取值是否正确;
对于XWPFDocument的更多使用我之前有看过一篇文档,连接就放这了:
https://www.cnblogs.com/unruly/p/7479518.html