PDF信息批量提取至Excel

本文介绍了如何使用编程方法高效地将1000多个PDF文件中的特定内容整理并批量导入到Excel表格中,以避免手动操作的繁琐。通过编写四个主要功能函数:提取PDF信息、导出到Excel、PDF遍历及主函数,实现了自动化处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在学院做助管时,某老师布置了任务:将1000+个PDF文件的指定内容整理到一个Excel中。为了防止在逐个打开复制粘贴的过程中猝死,尝试编写代码简化此问题。实现的功能主要是将每个PDF的信息分别提取到Excel中的每一行。

需要的模块比较少。

import os
import pdfplumber #解析pdf文件,尤其带有表格的文件
from openpyxl import Workbook #读写Excel的文件

提取PDF信息的函数。

def parse(pdf):
    targets = [] #保存结果,
    for page in pdf.pages: 
        words = page.extract_words(x_tolerance=5)
        for word in words:
            targets.append(word['text'])
    return targets
    #print(targets)

导出至Excel的函数。

def save(targets, out_path, number, sheet_name='targets'):
    ws.title = sheet_name
    ws._current_row=number
    ws.append(targets)
    print(ws)
    #ws.append(list(targets.values()))
    wb.save(out_path)

PDF遍历函数。

def pdfFilesPath(pa
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值