PDF信息批量提取至Excel

本文介绍了如何使用编程方法高效地将1000多个PDF文件中的特定内容整理并批量导入到Excel表格中,以避免手动操作的繁琐。通过编写四个主要功能函数:提取PDF信息、导出到Excel、PDF遍历及主函数,实现了自动化处理。
摘要由CSDN通过智能技术生成

在学院做助管时,某老师布置了任务:将1000+个PDF文件的指定内容整理到一个Excel中。为了防止在逐个打开复制粘贴的过程中猝死,尝试编写代码简化此问题。实现的功能主要是将每个PDF的信息分别提取到Excel中的每一行。

需要的模块比较少。

import os
import pdfplumber #解析pdf文件,尤其带有表格的文件
from openpyxl import Workbook #读写Excel的文件

提取PDF信息的函数。

def parse(pdf):
    targets = [] #保存结果,
    for page in pdf.pages: 
        words = page.extract_words(x_tolerance=5)
        for word in words:
            targets.append(word['text'])
    return targets
    #print(targets)

导出至Excel的函数。

def save(targets, out_path, number, sheet_name='targets'):
    ws.title = sheet_name
    ws._current_row=number
    ws.append(targets)
    print(ws)
    #ws.append(list(targets.values()))
    wb.save(out_path)

PDF遍历函数。

def pdfFilesPath(pa
  • 3
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PDF是一种常见的电子文档格式。在处理PDF文件时,有时需要将其的一些内容提取出来并以表格的形式保存。这时,可以使用PDF批量提取工具,将指定内容提取Excel。本篇将详细介绍如何使用此工具进行操作。 首先,需要安装一个PDF批量提取工具。目前市场上有许多PDF提取工具可供选择,如Adobe Acrobat、PDFelement等。 接下来,打开需要提取PDF文件、启动PDF批量提取工具,进入提取内容的设置界面。一般可选的提取方式有三种:关键字提取表格提取、区域提取。因为这里的需求是提取指定内容,因此选择关键字提取。在关键字提取界面,输入需要提取的关键字,并设置提取的范围,即选择要提取的单页还是整个PDF文件。 完成设置后,点击“提取”按钮即可开始批量提取工作。此时,PDF批量提取工具会自动搜索整个PDF文件,找到所设的关键字,并提取相关内容。在提取的过程,可以进行筛选和排序,确保提取出来的内容是想要的。 最后,将提取出来的内容保存为Excel文件。此时,我们便成功地将PDF文件指定内容批量提取到了Excel表格。 总的来说,PDF批量提取工具是一种极其实用的工具,可以大大减轻人工翻阅PDF文件、提取指定内容、整合数据的工作量。当然,在使用工具的过程,还需要了解PDF技术及工具参数设置等相关知识,才能保证提取的准确性和效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值