java pdf 识别表格内容 识别空格

java pdf 识别表格内容 识别空格

maven 依赖
只有版本2.0.0以上的 pdfbox版本与此版本的PDFLayoutTextStripper.java兼容
<dependency
<groupId io.github.jonathanlink</groupId
<artifactId PDFLayoutTextStripper</artifactId
<version 2.2.3</version
</dependency

package pdf;

import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.common.PDRectangle;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;
import org.apache.pdfbox.text.TextPositionComparator;

import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Iterator;
import java.util.List;

public class PDFLayoutTextStripper extends PDFTextStripper {

public static final boolean DEBUG = false;
public static final int OUTPUT_SPACE_CHARACTER_WIDTH_IN_PT = 4;

private double currentPageWidth;
private TextPosition previousTextPosition;
private List<TextLine> textLineList;

/**
* Constructor
*/
public PDFLayoutTextStripper() throws IOException {
    super();
    this.previousTextPosition = null;
    this.textLineList = new ArrayList<TextLine>();
}

/**
* 
* @param page page to parse
*/
@Override
public void processPage(PDPage page) throws IOException {
    PDRectangle pageRectangle = page.getMediaBox();
    if (pageRectangle!= null) {
        this.setCurrentPageWidth(pageRectangle.getWidth());
        super.processPage(page);
        this.previousTextPosition = null;
        this.textLineList = new ArrayList<TextLine>();
    }
}

@Override
protected void writePage() throws IOException {
    List<List<TextPosition>> charactersByArticle = super.getCharactersByArticle();
    for( int i = 0; i < charactersByArticle.size(); i++) {
        List<TextPosition> textList = charactersByArticle.get(i);
        try {
            this.sortTextPositionList(textList);
        } catch ( IllegalArgumentException e) {
            System.err.println(e);
        }
        this.iterateThroughTextList(textList.iterator()) ;
    }
    this.writeToOutputStream(this.getTextLineList());
}

private void writeToOutputStream(final List<TextLine> textLineList) throws IOException {
    for (TextLine textLine : textLineList) {
        char[] line = textLine.getLine().toCharArray();
        super.getOutput().write(line);
        super.getOutput().write('\n');
        super.getOutput().flush();
    }
}

/*
 * In order to get rid of the warning:
 * TextPositionComparator class should implement Comparator<TextPosition> instead of Comparator
 */
@SuppressWarnings("unchecked")
private void sortTextPositionList(final List<TextPosition> textList) {
    TextPositionComparator comparator = new TextPositionComparator();
    Collections.sort(textList, comparator);
}

private void writeLine(final List<TextPosition> textPositionList) {
    if ( textPositionList.size() > 0 ) {
        TextLine textLine = this.addNewLine();
        boolean firstCharacterOfLineFound = false;
        for (TextPosition textPosition : textPositionList ) {
            CharacterFactory characterFactory = new CharacterFactory(firstCharacterOfLineFound);
            Character character = c
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 要提取 PDF 中的表格,可以使用 Java 库 Apache PDFBox。以下是一些示例代码,可以帮助你开始提取表格: ``` PDDocument document = PDDocument.load(new File("path/to/pdf/file.pdf")); PDFTextStripper stripper = new PDFTextStripper(); String text = stripper.getText(document); // 此时,你可以使用正则表达式或其他方法从文本中提取表格。 ``` 如果想要更高级的表格提取功能,可以考虑使用开源项目 Tabula 或 PDFTableExtractor。这些库都提供了更高级的表格提取功能,包括自动检测表格、支持多个表格等等。 ### 回答2: Java提取PDF表格通常采用Apache PDFBox库来处理。Apache PDFBox是一个开放源代码的Java库,用于操作和处理PDF文档。 首先,需要导入Apache PDFBox库的相关jar文件。然后,使用PDFTextStripper类来解析PDF文件并提取表格数据。具体步骤如下: 1. 使用PDDocument类的load()方法加载要处理的PDF文件。 2. 创建一个PDFTextStripper对象,并通过getPages()方法获取PDF的页面数量。 3. 遍历每个页面,将PDF内容转换为字符串,可以使用PDFTextStripper类的setText()方法设置起始和结束页面。 4. 使用PDFTextStripper类的getText()方法获取页面内容的纯文本形式。 5. 根据表格的特征,通过文本处理技术来识别并提取表格数据。 6. 可以使用正则表达式或字符串处理函数来解析表格数据。 7. 将提取的表格数据保存到一个数据结构中,如二维数组或集合。 8. 最后,处理完所有页面后,使用PDDocument类的close()方法关闭PDF文件。 需要注意的是,PDF文件的结构可能因具体情况而异,因此提取表格数据需要根据PDF文件的结构进行适当的调整和处理。同时,由于PDF文件可能包含复杂的布局和格式,可能需要使用其他相关库或技术来处理。 总而言之,通过使用Apache PDFBox库和适当的文本处理技术,我们可以使用Java提取PDF表格,从而获得所需的数据。 ### 回答3: Java提取PDF表格的主要方式是使用第三方库,比如Apache PDFBox和iText。这些库提供了丰富的功能,可以帮助我们读取和操作PDF文档。 首先,我们需要将PDF文件加载到Java程序中。使用PDFBox,我们可以使用PDDocument类的load方法来加载PDF文件。例如,以下代码将加载名为"example.pdf"的PDF文件: ``` PDDocument document = PDDocument.load(new File("example.pdf")); ``` 在加载PDF文件之后,我们可以使用PDFBox提供的方法来获取PDF文档中的表格内容PDFBox并没有直接提供提取表格的方法,但我们可以通过获取文档的页面、提取文本以及对文本进行解析来达到这个目的。例如,以下代码将获取第一页中的所有文本内容: ``` PDPage page = document.getPage(0); PDFTextStripper stripper = new PDFTextStripper(); String pageText = stripper.getText(page); ``` 接下来,我们需要使用自定义的算法来解析文本内容,以提取出表格的结构和数据。通常情况下,表格的数据在文本中会以适当的分隔符(如制表符或空格)进行分隔,我们可以使用Java的String.split方法来分割文本行以获取每个单元格的内容。 最后,我们可以将提取到的表格数据保存到其他格式(如Excel)或进行进一步处理和分析。这可以使用Java自带的API(如Apache POI)来完成。 需要注意的是,PDF文档的结构和表格的样式可能会因文档的不同而有所差异,因此在编写提取表格的算法时需要考虑到各种情况和异常情况的处理。另外,PDFBox和iText这些库的文档和示例代码可以帮助我们更好地理解和使用它们。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值