java web之读取PDF文件内容

  1. 引入依赖
  2. 编写工具类
  3. 编写测试用例
  4. 运行结果

1 引入依赖

 <!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -->
 <dependency>
     <groupId>org.apache.pdfbox</groupId>
     <artifactId>pdfbox</artifactId>
     <version>1.1.0</version>
 </dependency>

2 编写工具类

import java.io.File;
import java.io.FileInputStream;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;

/**
 * @version V1.0
 * @ClassName: wzl
 * @Description: TODO
 * @author: guoyiying
 * @date 2019/12/27 13:51
 */
public class PDFUtil {

    public static void main(String[] args) throws Exception {
        File f = new File("E:/JAVA/demo.pdf");
        String s = PDFUtil.getContent(f);
        System.out.println(s);
    }

    public static String getContent(File f) throws Exception {
        FileInputStream fis = new FileInputStream(f);
        PDFParser p = new PDFParser(fis);
        p.parse();
        PDDocument pdd = p.getPDDocument();
        PDFTextStripper ts = new PDFTextStripper();
        String c = ts.getText(pdd);
        pdd.close();
        fis.close();
        return c;
    }
}

3 编写测试用例

在这里插入图片描述

4 运行结果

在这里插入图片描述

参考文章

Java程序员从笨鸟到菜鸟之(一百零三)java操作office和pdf文件(一)java读取word,excel和pdf文档内容

结语

项目开发中,难免会遇到读取PDF文件内容的需求,看这demo内容操作难度不大,于是笔者跟着敲了一遍,既然运行成功了,那么就在此做个记录。

本人所有博客仅用于学习记录,不做任何商业用途,如涉及侵权,还请联系删除,感谢阅读,欢迎留言,一起进步~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值