[784]python解析PDF表格

通过看别人写的博客,发现python里面有关PDF解析的通常有以下四种:

  • pdfminer,擅长仅仅是文字的解析,本小白试过了,是把表格解析成普通的文本,还经常会伴随一些莫名奇妙的不认识的符号。这个方案pass掉

  • pdf2html,看例是把pdf解析成html,但是html的标签并没有规律,解析一个还行,但是本小白是许多的pdf文档下小标题的表格,这个方案直接pass掉

  • tabula,这个是我看过的前辈写的博客中使用最多的,本人用过了。对于简单的表格,也就是单元格中没有换行的,表头表尾形式不复杂的,这个方案的值得推荐。电脑需要有Java的环境。

  • pdfplumber,这个是看了知乎上的一个大佬的发现,并且自己安装成功之后,发现最小众,但是最符合我的需求的解决方案。前提是是需要安装ImageMagick的

方案1:tabula

import tabula

# Read pdf into DataFrame
df = tabula.read_pdf("./P26.pdf",pages=str(1))
print(df)

这个直接返回的是一个数据帧,所以就直接是结构化的数据啦!

输出结果是这样的:

[    序号               疑似失联私募机构
0    1     中投国美投资基金管理(北京)有限公司
1    2           北京嘉宸投资基金有限公司
2    3     中融国晟投资基金管理(北京)有限公司
3    4     奥尼斯特(北京)投资基金管理有限公司
4    5       北京国信联盟投资基金管理有限公司]

方案2:pdfplumber

import pdfplumber
import pandas as pd

pdf = pdfplumber.open("./P26.pdf")
p0 = pdf.pages[0]#注意此处的pages是一个列表,索引是从0开始的
table = p0.extract_table()
df = pd.DataFrame(table[1:], columns=table[0])
# df = pd.DataFrame(table[2:], columns=table[1])
print(df)

输出结果是这样的:

   序号 NaN NaN               疑似失联私募机构                 NaN   NaN
0       1                             中投国美投资基金管理(北京)有限公司      
1       2               北京嘉宸投资基金有限公司                None  None
2       3         中融国晟投资基金管理(北京)有限公司                None  None
3       4         奥尼斯特(北京)投资基金管理有限公司                None  None
4       5           北京国信联盟投资基金管理有限公司                None  None

虽然为了展示对比的方便,这里都是用了同样的一个表格,但是方案2的解决真的要比1好

别问我为啥知道2比1好,你试试用1去解析一些带有文字格式的表格,带有复杂的表头的表格,你就知道啦!我在这里并没有在瞎说,而且还得装的的java的,后者只装一个的ImageMagick的就行,而且ImageMagick的很有用的

pandas.core.frame.DataFrame 切片技巧

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(6,4), columns=list('ABCD'))
print(df.iloc[3])  # 输出第4行的值 索引以0开头
print(df.iloc[3:5, 0:2])  # 输出4-5行,1到2列
print(df.iloc[[1, 2, 4], [0, 2]])  # 输出不连续行列的树
print(df.iat[1, 1]) # 提取2行2列的数,提取单个数iat效率更高

print('分割线','*'*200)

参考:https://www.sohu.com/a/249125624_495461
https://www.cnblogs.com/rener0424/p/11225744.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周小董

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值