java PDFBox升级2.0抽取pdf文件内的图片修改方法,PDXObjectImage、PDXObject改为PDImageXObject、PDFormXObject、PDXObject

pdfbox升级2.0以后,很多类的路径变了。很多类的名称也变了。老版本提取图片的方法可以做如下修改

导包

import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.graphics.PDXObject;
import org.apache.pdfbox.pdmodel.graphics.form.PDFormXObject;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;

获取方法


  /**
     * 从pdf里面提取出图片 。不是转换图片
     * @param document
     * @return
     * @throws IOException
     */
    public static List<PDImageXObject> getImagesFromPDF(PDDocument document) throws IOException {
        List<PDImageXObject> images = new ArrayList<PDImageXObject>();
        for (PDPage page : document.getPages()) {
            images.addAll(getImagesFromResources(page.getResources()));
        }
        return images;
    }

    /**
     * 从pdf里面提取出图片 。不是转换图片
     * @param resources
     * @return
     * @throws IOException
     */
    private static List<PDImageXObject> getImagesFromResources(PDResources resources) throws IOException {
        List<PDImageXObject> images = new ArrayList<PDImageXObject>();
        for (COSName xObjectName : resources.getXObjectNames()) {
            PDXObject xObject = resources.getXObject(xObjectName);
            if (xObject instanceof PDFormXObject) {
                continue;
            } else if (xObject instanceof PDImageXObject) {
                PDImageXObject obj = (PDImageXObject) xObject;
                images.add(obj);
            }
        }
        return images;
    }

获取之后保存图片

List<PDImageXObject> imgList = getImagesFromPDF(document);
for(PDImageXObject object:imgList){
     BufferedImage bi = object.getImage();
     String fileFormat =  object.getSuffix();
     count++;
     String name =count+"."+fileFormat; // 图片文件名
     File outputfile = new File(targetFolder + name);
     ImageIO.write(bi, fileFormat, outputfile);
 }
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
您好,对于 PDFBox 解析报错问题,可以提供以下解决方案: 1. 检查 PDF 文件是否损坏,可以通过其他工具如 Adobe Acrobat Pro 等打开该 PDF 文件进行检查。 2. 检查 PDF 文件是否加密,如果是则需要提供密码进行解密。 3. 检查 PDF 文件是否包含非标准字体,如果是则需要将字体文件手动添加到 PDFBox 的字体目录下。 对于 PDFBox图片报错 JPEG2000 image 的问题,可能是由于缺少相关依赖库导致的。您可以尝试在项目中添加以下依赖: ```xml <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.23</version> </dependency> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox-tools</artifactId> <version>2.0.23</version> </dependency> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>jbig2-imageio</artifactId> <version>3.0.3</version> </dependency> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>fontbox</artifactId> <version>2.0.23</version> </dependency> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>xmpbox</artifactId> <version>2.0.23</version> </dependency> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox-reactor</artifactId> <version>2.0.23</version> </dependency> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox-debugger</artifactId> <version>2.0.23</version> </dependency> ``` 如果还是无法解决问题,可以尝试升级 PDFBox 版本或者使用其他 PDF 转换工具。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值