再见PDF提取收费!我用100行Python代码搞定!去你的收费!

大家在日常的工作和学习过程中,都少不了与PDF文件打交道,很多的小伙伴都面临着将PDF文件中的文字、图片和表格数据提取出来的问题。能够对PDF文件中的文字、表格等数据进行编辑,网上现存的PDF提取的软件都需要付费操作!

小编今天就利用百行的python程序,来提取PDF文件中的文字、图片和表格数据。一起来看看吧。

01.程序执行效果

python库版本介绍

本次程序涉及到多个python第三方库与python3的内置库,而且不同的python库版本对于程序的兼容性不一致,因此我们首先来介绍一下使用到的python第三方库版本。

  • PySimpleGUI 4.38.0

  • pdfminer3k 1.3.4

  • pdfplumber 0.5.27

  • fitz 0.0.1.dev2

  • pandas 1.1.3

02.程序讲解

看过视频之后,接下来就进行程序的展示,程序的展示主要分为以下的四个方面,分别是:

  • PDF提取文字

  • PDF提取图片

  • PDF提取表格

  • 交互界面的制作

03.PDF提取文字

PDF中文字是只允许我们进行只读,但是无法进行更改,所以我们要做的就是提取PDF中的文字信息,然后将提取到的文字写入到word文件当中,让我们能够进行后续的改写。对于文字的提取,我们利用的是pdfminer函数库,其程序如下图所示:

  • 71
    点赞
  • 115
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 31
    评论
当然,我可以帮你编写一个Python代码来自动提取PDF文件名称。你可以使用`PyPDF2`库来实现这个功能。请确保你已经安装了`PyPDF2`库。 下面是一个示例代码: ```python import PyPDF2 import os def extract_pdf_filename(pdf_path): with open(pdf_path, 'rb') as file: pdf_reader = PyPDF2.PdfFileReader(file) pdf_info = pdf_reader.getDocumentInfo() return pdf_info.title # 用于存储提取PDF文件名 pdf_filenames = [] # PDF文件所在的文件夹路径 pdf_folder = '/path/to/pdf_folder' # 遍历文件夹中的所有PDF文件 for filename in os.listdir(pdf_folder): if filename.endswith('.pdf'): pdf_path = os.path.join(pdf_folder, filename) pdf_filename = extract_pdf_filename(pdf_path) pdf_filenames.append(pdf_filename) # 打印提取PDF文件名 for filename in pdf_filenames: print(filename) ``` 在上面的代码中,我们首先定义了一个`extract_pdf_filename`函数,它接收一个PDF文件路径作为参数,并使用`PyPDF2`库提取PDF文件的标题信息,并将其作为函数的返回值。 然后,在主代码中,我们指定了存储提取PDF文件名的列表`pdf_filenames`,并指定了包含PDF文件的文件夹路径`pdf_folder`。我们使用`os.listdir`函数遍历文件夹中的所有文件,并检查是否是以`.pdf`为扩展名的PDF文件。对于每个找到的PDF文件,我们调用`extract_pdf_filename`函数来提取其文件名,并将其添加到`pdf_filenames`列表中。 最后,我们打印出提取PDF文件名。 请记得将`/path/to/pdf_folder`替换为你实际的PDF文件夹路径。如果你的PDF文件有密码保护,你可能需要提供密码才能成功读取PDF文件的标题信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 31
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Python是世界上最好的语言

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值