java pdfbox读取pdf中的表格

最新推荐文章于 2024-06-11 17:46:41 发布

weixin_44803933

最新推荐文章于 2024-06-11 17:46:41 发布

阅读量1w

点赞数 2

文章标签： java pdf pdfbox 表格 pdf解析

本文链接：https://blog.csdn.net/weixin_44803933/article/details/89915191

版权

java pdfbox读取pdf中的表格

目前遇到了需要解析pdf中表格的需求，遇到无法解析表格中的空格，求助大神帮助！！！

<dependency>
	<groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>1.8.10</version>
</dependency>

package com.lc.pdfModule.service;

import java.awt.Rectangle;
import java.io.File;
import java.util.List;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.util.PDFTextStripperByArea;

import com.lc.common.utils.JsonUtils;

public class PdfText {
	public static void main(String[] args) {
		fillTemplete();
	}
	//pdf模板处理
	private static void fillTemplete(){
	   String templetePath = "D:\\201902yb_from_5_to_5_.pdf";
	   String data = "";
	   try {
	      PDDocument document = PDDocument.load(new File(templetePath));
	      if(document.isEncrypted()){
	         try{
	            document.decrypt("");
	         } catch (Exception e){
	         }
	      }
	      PDFTextStripperByArea stripper = new PDFTextStripperByArea();
	      stripper.setSortByPosition(true);
	      stripper.setWordSeparator("|");
//	      stripper.setLineSeparator("#");
	      //划定区域
	      Rectangle rect= new Rectangle(0, 0, 10000, 10000);
	      stripper.addRegion("area", rect);
	      List<PDPage> allPages = document.getDocumentCatalog().getAllPages();
	      int i = 0;
	      for(PDPage page : allPages){
	         stripper.extractRegions(page);
	         i++;
	         //获取区域的text
	         data = stripper.getTextForRegion("area");
//	         data = data.trim();
	         String[] datas = data.split("\r\n");
	         //对文本进行分行处理         
	         for( i = 0; i<datas.length; ++i){
	        	 String[] str = datas[i].split(" ");
	        	 System.out.println(JsonUtils.objToString(str));
	         }
	      }
	      document.close();
	   } catch (Exception e){
	      e.printStackTrace();
	   }
	}
}

下图是需要解析的pdf文件中的表格
在这里插入图片描述
这是解析后的结果，表格中空格无法识别

weixin_44803933

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
14
评论
java pdfbox读取pdf中的表格

java pdfbox读取pdf中的表格目前遇到了需要解析pdf中表格的需求，遇到无法解析表格中的空格，求助大神帮助！！！<dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>1...
复制链接

扫一扫