PDF信息批量提取至Excel

AdrienStormborn

已于 2022-12-09 13:28:52 修改

阅读量3.6k

点赞数 3

分类专栏：小工具文章标签： excel pdf

于 2022-12-09 11:27:02 首次发布

本文链接：https://blog.csdn.net/weixin_51346606/article/details/128249942

版权

本文介绍了如何使用编程方法高效地将1000多个PDF文件中的特定内容整理并批量导入到Excel表格中，以避免手动操作的繁琐。通过编写四个主要功能函数：提取PDF信息、导出到Excel、PDF遍历及主函数，实现了自动化处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在学院做助管时，某老师布置了任务：将1000+个PDF文件的指定内容整理到一个Excel中。为了防止在逐个打开复制粘贴的过程中猝死，尝试编写代码简化此问题。实现的功能主要是将每个PDF的信息分别提取到Excel中的每一行。

需要的模块比较少。

import os
import pdfplumber #解析pdf文件，尤其带有表格的文件
from openpyxl import Workbook #读写Excel的文件

提取PDF信息的函数。

def parse(pdf):
    targets = [] #保存结果，
    for page in pdf.pages: 
        words = page.extract_words(x_tolerance=5)
        for word in words:
            targets.append(word['text'])
    return targets
    #print(targets)

导出至Excel的函数。

def save(targets, out_path, number, sheet_name='targets'):
    ws.title = sheet_name
    ws._current_row=number
    ws.append(targets)
    print(ws)
    #ws.append(list(targets.values()))
    wb.save(out_path)

PDF遍历函数。