Java识别获取pdf中文字信息

一、举例需求(拿较难的发票识别举例)

平时工作或者开发过程中如果遇到需要识别pdf发票中信息的情况,如获取发票代码号码,开票日期,校验码等,比如下面的发票,项目中需要读取发票中信息
在这里插入图片描述

二、方法原理

使用java中的pdfbox组件引用jar包使用,其中PDFTextStripper负责读取pdf中的文字信息,使用正则表达式寻找文字信息或者使用字符串定位寻找信息

首先在pom文件中引用pdfbox, 引用pdfbox代码如下

  <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.23</version>
        </dependency> 

三、代码实现

在引入pdfbox后,我们之间获取pdf文件信息,从前台传的文件中进行如下操作,

//multipartFile为multipartFile文件类型,将文件转化为文件流被PDDocument加载
PDDocument document = PDDocument.load(multipartFile.getInputStream());
document.getClass();
//使用PDFTextStripper 工具
PDFTextStripper tStripper = new PDFTextStripper();
//设置文本排序,有规则输出
tStripper.setSortByPosition(true);
//获取所有文字信息
String info = tStripper.getText(document);

获取得到的发票信息如下所示是一些杂乱的文字信息

我们现在目的是从这些杂乱信息中获取我们想要的信息,如发票代码,发票号码,开票日期,校验码

下面就有两种方式获取这些信息,两种方式原理不同,可以分开使用也可以结合使用(更加万无一失)

方式一:使用正则表达式寻找关键信息

寻找相似点,例如发票代码附近就有换行符的存在【\r\n】其他信息周围存在着空格或者年月日等字眼,通过这种方式我们来写正则匹配方式(正则其实我也不很会,看着其他正则写的)

例如发票号码就是一个8位1-9的数字,周围都是是【\r\n】于是我们可以写成这样

[\r\n][0-9]{8}[\r\n]

其他的正则表达式可以写成

//发票代码

[0-9]{12}[\r]

//开票日期

\d{4}[年]\d{2}[月]\d{2}[日]

//校验码

[ ]\d{5}[ ]\d{5}[ ]\d{5}[ ]\d{5}

这样正则表达式就写完成了,通过表达式可以从散乱的信息中找到我们要的信息了

方式二:通过String寻找关键词位置

这项有个缺点就是需要【发票代码:013002100111】这种形式的数据,如果不是的话就定位不到数据信息,原理是需找到【发票代码】的位置,然后取对应数量位的数字值,代码如下

    int index = info.indexOf("发票代码");

    if (index == -1) {

        index = info.indexOf(key2);

        if (index == -1 || index == 0) {

            index = info.indexOf(key + " :");

        }

    }

    if ("发票代码".equals(key)) {

        String fpdm = info.substring(index + 5, index + 18);

        text = fpdm.replace(" ", "").replace(":", "").trim();

        text = text.length() > 12 ? text.substring(0, 12) : text;

        text = text.length() == 12 ? text : "";

    }

通过定位找到对应的信息

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wqq6310855

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值