大家在日常的工作和学习过程中,都少不了与PDF文件打交道,很多的小伙伴都面临着将PDF文件中的文字、图片和表格数据提取出来的问题。能够对PDF文件中的文字、表格等数据进行编辑,网上现存的PDF提取的软件都需要付费操作!
小编今天就利用百行的python程序,来提取PDF文件中的文字、图片和表格数据。一起来看看吧。
01.程序执行效果
python库版本介绍
本次程序涉及到多个python第三方库与python3的内置库,而且不同的python库版本对于程序的兼容性不一致,因此我们首先来介绍一下使用到的python第三方库版本。
-
PySimpleGUI 4.38.0
-
pdfminer3k 1.3.4
-
pdfplumber 0.5.27
-
fitz 0.0.1.dev2
-
pandas 1.1.3
02.程序讲解
看过视频之后,接下来就进行程序的展示,程序的展示主要分为以下的四个方面,分别是:
-
PDF提取文字
-
PDF提取图片
-
PDF提取表格
-
交互界面的制作
03.PDF提取文字
PDF中文字是只允许我们进行只读,但是无法进行更改,所以我们要做的就是提取PDF中的文字信息,然后将提取到的文字写入到word文件当中,让我们能够进行后续的改写。对于文字的提取,我们利用的是pdfminer函数库,其程序如下图所示: