pdf文件既有图片又有文字的解析方案，混合使用OCR技术（含源代码）-CSDN博客

本文链接：https://blog.csdn.net/zounianfa/article/details/147964029

本文针对混合PDF（文本+图片）的解析需求，提出了一种高效准确的动态处理方案。通过PDFBox判断页面类型——文本页直接提取内容，图片页则渲染为高清图像后调用PaddleOCR识别，实现精准的混合解析。文章详细分析了三类处理场景（纯文本、纯图片、混合型），给出完整的Java实现代码，包含页面类型检测、文本提取、OCR集成等核心模块，并附Maven依赖配置。同时提供两种PaddleOCR集成方案（Python调用或Java SDK），建议通过图像预处理和并行计算优化性能。该方案兼顾了结构化文本的解析效率与图像OCR的识别能力，适用于合同、发票等真实场景，文末还包含部署指南和常见问题解答，为开发者提供开箱即用的参考实现。
一概要：
比如我一个pdf文件既有图片又有文字，我要提高识别的准确性，我需要将有图片的页转成图片，调用ocr模型进行识别，比如飞浆的开源ocr识别方法，没有图片的页码正常用java代码进行识别。一般pdf通常有以下两种情况
无需OCR：文档能直接提取文本、有结构化数据（表格/元数据）。
必须OCR：内容为图像、手写体、扫描件。
但是更多的两种情况都存在的pdf文件，可使用如下方法解决：
二：关键逻辑说明
1.判断页面类型
使用PDFTextStripper尝试提取文本，若为空则视为图片页。
2.文本页处理
直接通过PDFBox提取文本，保留原始格式。
3.图片页处理
用PDFRenderer将页面渲染为高DPI（300+）的BufferedImage。
调用PaddleOCR的接口（需自行实现或使用Java调用Python的方案）
三：源代码
补充说明，用java和python其实都可以
1.java类
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.text.PDFTextStripper;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class HybridPDFParser {

// PaddleOCR的调用封装（需自行实现或使用JNI调用Python）
public static String paddleOCR(BufferedImage image) throws Exception {
    // 实际项目中替换为PaddleOCR的Java SDK调用
    // 示例伪代码：调用PaddleOCR的HTTP接口或本地命令
    File tempImage = File.createTempFile("ocr_temp", ".png");
    ImageIO.write(image, "png", tempImage);
    
    // 调用PaddleOCR命令（需安装PaddleOCR环境）
    Process process = Runtime.getRuntime().exec(
        new String[]{"paddleocr", "--image=" + tempImage.getAbsolutePath()}
    );
    process.waitFor();
    
    // 简化的模拟返回
    return "[OCR Result from PaddleOCR]"; 
}

// 判断PDF页是否有可提取文本
public static boolean hasText(PDPage page) throws IOException {
    PDFTextStripper stripper = new PDFTextStripper();
    stripper.setStartPage(1);
    stripper.setEndPage(1);
    String text = stripper.getText(new PDDocument(page.getDocument()));
    return !text.trim().isEmpty();
}

// 混合解析PDF
public static List<String> parseHybridPDF(String pdfPath) throws Exception {
    List<String> results = new ArrayList<>();
    try (PDDocument document = PDDocument.load(new File(pdfPath))) {
        PDFRenderer renderer = new PDFRenderer(document);
        
        for (int i = 0; i < document.getNumberOfPages(); i++) {
            PDPage page = document.getPage(i);
            if (hasText(page)) {
                // 用PDFBox提取文本页
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(i + 1);
                stripper.setEndPage(i + 1);
                results.add("Page " + (i + 1) + " (Text):\n" + stripper.getText(document));
            } else {
                // 将图片页渲染为图像并调用OCR
                BufferedImage image = renderer.renderImageWithDPI(i, 300); // 300 DPI提高OCR精度
                String ocrResult = paddleOCR(image);
                results.add("Page " + (i + 1) + " (OCR):\n" + ocrResult);
            }
        }
    }
    return results;
}

public static void main(String[] args) {
    try {
        List<String> parsedContent = parseHybridPDF("input.pdf");
        for (String pageResult : parsedContent) {
            System.out.println(pageResult);
            System.out.println("----------------------");
        }
    } catch (Exception e) {
        e.printStackTrace();
    }
}

}

2.pom.xml修改

org.apache.pdfbox pdfbox 2.0.27 org.openpnp opencv 4.5.5-1 3.java开源的飞浆可详见https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/deploy/java_readme.md。需要单独启动服务进行部署，或者使用python均可以。有问题可以详细沟通。