java PDFBox升级2.0抽取pdf文件内的图片修改方法,PDXObjectImage、PDXObject改为PDImageXObject、PDFormXObject、PDXObject

最新推荐文章于 2024-05-21 16:32:18 发布

阅读量1k

点赞数

文章标签： java 开发语言

本文链接：https://blog.csdn.net/zuquanbin/article/details/125856054

版权

pdfbox升级2.0以后，很多类的路径变了。很多类的名称也变了。老版本提取图片的方法可以做如下修改

导包

import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.graphics.PDXObject;
import org.apache.pdfbox.pdmodel.graphics.form.PDFormXObject;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;

获取方法


  /**
     * 从pdf里面提取出图片 。不是转换图片
     * @param document
     * @return
     * @throws IOException
     */
    public static List<PDImageXObject> getImagesFromPDF(PDDocument document) throws IOException {
        List<PDImageXObject> images = new ArrayList<PDImageXObject>();
        for (PDPage page : document.getPages()) {
            images.addAll(getImagesFromResources(page.getResources()));
        }
        return images;
    }

    /**
     * 从pdf里面提取出图片 。不是转换图片
     * @param resources
     * @return
     * @throws IOException
     */
    private static List<PDImageXObject> getImagesFromResources(PDResources resources) throws IOException {
        List<PDImageXObject> images = new ArrayList<PDImageXObject>();
        for (COSName xObjectName : resources.getXObjectNames()) {
            PDXObject xObject = resources.getXObject(xObjectName);
            if (xObject instanceof PDFormXObject) {
                continue;
            } else if (xObject instanceof PDImageXObject) {
                PDImageXObject obj = (PDImageXObject) xObject;
                images.add(obj);
            }
        }
        return images;
    }

获取之后保存图片

List<PDImageXObject> imgList = getImagesFromPDF(document);
for(PDImageXObject object:imgList){
     BufferedImage bi = object.getImage();
     String fileFormat =  object.getSuffix();
     count++;
     String name =count+"."+fileFormat; // 图片文件名
     File outputfile = new File(targetFolder + name);
     ImageIO.write(bi, fileFormat, outputfile);
 }

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
java PDFBox升级2.0抽取pdf文件内的图片修改方法,PDXObjectImage、PDXObject改为PDImageXObject、PDFormXObject、PDXObject

pdfbox升级2.0以后，很多类的路径变了。很多类的名称也变了。老版本提取图片的方法可以做如下修改。PDXObjectImage、PDXObject改为PDImageXObject、PDFormXObject、PDXObject
复制链接

扫一扫