Java PDF文件简介和解析

本文介绍了PDF文件格式及其特点,重点讨论了在Java中处理PDF的常用方法,包括使用Apache PDFBox进行PDF的解析、创建、合并等操作,以及通过XDocReport将docx转换为PDF。推荐使用PDFBox库进行PDF操作,如需要生成或修改PDF,建议先用docx格式进行处理。
摘要由CSDN通过智能技术生成

PDF

  • Portable Document Format 的简称,意为“便携式文档格式”
  • Adobe公司方法
  • PostScript,用以生成和输出图形,在任何打印机上都可以保证精准的的颜色和准确的打印效果
  • 字型嵌入系统,可使字型随文件一起传输
  • 结构化的存储系统,绑定元素和任何相关内容到单个文件,带有适当的数据压缩系统

处理和第三方包

  • 常见功能处理
    – 解析PDF
    – 生成PDF(其他类型文件转化)
  • 第三方包
    – Apache PDFBox
    – iText(收费)
    – XDocReport(将docx转化为PDF)
PDFBox
  • 纯Java类库
  • 主要功能:创建,提取文本,分隔/合并/删除…
  • 主要类
    – PDDocument pdf文档对象
    – PDFTextStripper pdf文本对象
    – PDFMergerUtility 合并工具
//抓取PDF文件的文本
public static void main(String[] args){
   

        File pdfFile = new File("simple.pdf");
        PDDocument document = null;
        try
        {
   
            document=PDDocument.load(pdfFile);  //pdf文件的加载
            
            AccessPermission ap = document.getCurrentAccessPermission();
            if (!ap.canExtractContent()) //判定有没有安全设置
            {
   
                throw new IOException("你没有权限抽取文本");
            }
            // 获取页码
            int pages = document.getNumberOfPages();

            // 读文本内容
            PDFTextStripper stripper=new PDFTextStripper();
            // 设置按顺序输出
            stripper.setSortByPosition(true);
            stripper.setStartPage(1);  //起始页
            stripper.setEndPage(pages);//结束页
            String content = stripper.getText(document);
            System.out.println(content);      
        }
        catch(Exception e)
        {
   
            System.out.pri
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值