Tabula的使用

最新推荐文章于 2025-05-08 19:02:05 发布

wllmp520

最新推荐文章于 2025-05-08 19:02:05 发布

阅读量7.6k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wlpp520/article/details/106897152

版权

Tabula是一个强大的工具，适用于将简单的PDF表格转换为结构化的数据。它能够处理单元格内的多行数据，但可能因文本识别错位导致问题。确保PDF表格数据简洁，避免单元格内过多的多行数据，以提高转换准确性。开源项目地址在https://github.com/tabulapdf/tabula-java，可以利用提供的方法和工具如GsonFormat生成JavaBean，并通过阿里巴巴的Fastjson API进行数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于不会多复杂的表格数据，tabula基本能实现完美的数据转换，对于格式制作良好的pdf表格，tabula对单元格中的多行数据也能进行处理，但事无绝对，由于再封装特性是自上而下自左而右的文本识别，依然还是会出现识别错位，那这样基本获取到字符串也很难获取有效信息了

所以推荐: 对于表制式的pdf识别最好保证数据足够简单(不要出现过多的一个单元格中就有三行及以上数据)。

开源地址:https://github.com/tabulapdf/tabula-java

可调用下列方法自己测试，得到的字符串将是由坐标加文本的格式，可用gsonformat插件自动生成JavaBean类，再调用阿里巴巴的fastjsonAPI去转换。

依赖

1

2

3

4

5

6

7

8

9

10

11

12

<dependency>

<groupId>technology.tabula</groupId>

<artifactId>tabula</artifactId>

<version>1.0.3</version>

<exclusions>

<exclusion>

<artifactId>slf4j-simple</artifactId>

<groupId>org.slf4j</groupId>

</exclusion>

</exclusions>

</dependency>

调用方法

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

//多表处理

Public static String pdfByTabulafor3(String pdfPath){

String[] args=newString[]{ "-f=JSON","-p=all",pdfPath};

CommandLineParser parser=newDefaultParser();

CommandLine cmd=null;

StringBuilder stringBuilder=newStringBuilder();

List<String> list=newArrayList<>();

try{

cmd = parser.parse(CommandLineApp.buildOptions(),args);

newCommandLineApp(stringBuilder,cmd).extractTables(cmd);

}catch(ParseExceptione){

e.printStackTrace();

System.out.println("文件解析失败，请校验是否为PDF格式文件");

}

String string=stringBuilder.toString();

String tabulaPdfString=string.replaceAll("\r",

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。