【python】pandas读取pdf文件

最新推荐文章于 2024-04-22 16:07:30 发布

十三先生po

最新推荐文章于 2024-04-22 16:07:30 发布

阅读量3.6k

点赞数 1

分类专栏：数据分析文章标签： python pandas

本文链接：https://blog.csdn.net/weixin_55579895/article/details/124295778

版权

数据分析专栏收录该内容

42 篇文章 3 订阅

订阅专栏

python 读取PDF及其他操作

安装
使用pdfplumber第三方库直接安装

pip install pdfplumber

一些常用的方法
.extract_text() 用来提页面中的文本，将页面的所有字符对象整理为的那个字符串
.extract_words() 返回的是所有的单词及其相关信息
.extract_tables() 提取页面的表格
.to_image() 用于可视化调试时，返回PageImage类的一个实例

import pdfplumber
import pandas as pd

with pdfplumber.open("表格.pdf") as pdf:
    page = pdf.pages[0]   # 第一页的信息
    table = page.extract_tables()
    for t in table:
        # 得到的table是嵌套list类型，转化成DataFrame
        df = pd.DataFrame(t[1:], columns=t[0])
        print(df)

优惠劵

十三先生po

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
【python】pandas读取pdf文件

python 读取PDF及其他操作python 读取PDF及其他操作安装使用pdfplumber第三方库直接安装pip install pdfplumber一些常用的方法.extract_text() 用来提页面中的文本，将页面的所有字符对象整理为的那个字符串.extract_words() 返回的是所有的单词及其相关信息.extract_tables() 提取页面的表格.to_image() 用于可视化调试时，返回PageImage类的一个实例import pdfplumberim
复制链接

扫一扫