python操作pdf文件

最新推荐文章于 2024-04-02 22:04:01 发布

xxy_yang

最新推荐文章于 2024-04-02 22:04:01 发布

阅读量566

点赞数

分类专栏： python基础

本文链接：https://blog.csdn.net/xxy_yang/article/details/115068361

版权

安装模块

pip install pdfplumber
pip install PyPDF2
pip install pypwin32

pdf 文件读取

"""
path: pdf的文件路径
pdfplumber.open(path): 文件打开读取
_pdf.pages： 获取pdf总页数
_pdf.pages[i].extract_text() ： 获取每页的pdf的内容
"""

def get_pdf_content(path):
    _pdf = pdfplumber.open(path)
    pages = len(_pdf.pages)  # _pdf.pages  输出的是列表数据
    all_content = [_pdf.pages[i].extract_text() for i in range(pages)]
    return all_content
    
if __name__ == '__main__':
    data = get_pdf_content('test.pdf')
    print(data[0])

读取pdf中的表格数据

def get_pdf_tables(path):
    _pdf = pdfplumber.open(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xxy_yang

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python操作pdf文件

安装模块pip install pdfplumberpip install PyPDF2pip install pypwin32pdf 文件读取"""path: pdf的文件路径pdfplumber.open(path): 文件打开读取_pdf.pages：获取pdf总页数_pdf.pages[i].extract_text() ：获取每页的pdf的内容"""def get_pdf_content(path): _pdf = pdfplumber.open(path)
复制链接

扫一扫