提取PDF文件中的表格

黎曼最初的梦想

已于 2024-04-02 11:24:42 修改

阅读量411

点赞数 4

分类专栏： Python操作PDF文件文章标签： python 开发语言 pdf

于 2024-04-01 16:36:06 首次发布

本文链接：https://blog.csdn.net/weixin_51423847/article/details/137238230

版权

Python操作PDF文件专栏收录该内容

9 篇文章 0 订阅

订阅专栏

# -*- coding: utf-8 -*-

导入需要使用的包

import os
import pandas as pd
import pdfplumber

自定义函式名extract_table_info(filepath, save_dirpath, Page)
"""
提取PDF中的图表数据
@param filepath:
@return:
"""

def extract_table_info(filepath, save_dirpath, Page):
    with pdfplumber.open(filepath) as pdf:
        # 获取指定Page页数据
        page = pdf.pages[Page]
        # 如果一页有一个表格，设置表格的第一行为表头，其余为数据
        table_info = page.extract_table()
        df_table = pd.DataFrame(table_info[1:], columns=table_info[0])
        df_table.to_csv(save_dirpath, index=False, encoding='gbk')

提取’PDF表格.pdf‘文件的第110页的表格内容

extract_table_info(r'E:\learn\PDF相关处理\PDF提取表格\PDF表格.pdf',
                   'E:\learn\PDF相关处理\PDF提取表格\提取表格test.csv',
                   Page=110)

如果一页有多个表格，对应的数据是一个三维数组

自定义函式名extract_table_info(filepath, save_dirpath, filename, Page)
"""
提取PDF中的图表数据
@param filepath:
@return:
"""

def extract_table_info(filepath, save_dirpath, filename, Page):
    with pdfplumber.open(filepath) as pdf:
        # 获取指定Page页数据
        page = pdf.pages[Page]
        tables_info = page.extract_tables()
        for i in range(len(tables_info)):
            # 设置表格的第一行为表头，其余为数据
            df_table = pd.DataFrame(tables_info[i][1:], columns=tables_info[i][0])
            #print(df_table)
            save_path = os.path.join(save_dirpath, filename+str(int(i)+1)+'.csv')
            df_table.to_csv(save_path, index=False, encoding='gbk')

提取’PDF表格.pdf‘文件中第121页中的多个表格

extract_table_info(filepath=r'E:\learn\PDF相关处理\PDF提取表格\PDF表格.pdf',
                   save_dirpath=r'E:\learn\PDF相关处理\PDF提取表格',
                   filename='提取一页中的多个表格',
                   Page=121)

黎曼最初的梦想

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
提取PDF文件中的表格

extract_table_info(filepath=r'E:\learn\PDF相关处理\PDF提取表格\PDF表格.pdf',save_dirpath=r'E:\learn\PDF相关处理\PDF提取表格','E:\learn\PDF相关处理\PDF提取表格\提取表格test.csv',extract_table_info(r'E:\learn\PDF相关处理\PDF提取表格\PDF表格.pdf',# 如果一页有一个表格，设置表格的第一行为表头，其余为数据。# 设置表格的第一行为表头，其余为数据。
复制链接

扫一扫