Python提取Pdf文件大纲

Fitz是一款开源的PDF处理工具,它是由MuPDF开发团队开发的一款软件包。Fitz提供了很多PDF操作的功能,包括浏览、渲染、翻转、裁剪、旋转、缩放、剪切、粘贴、合并等等。此外,Fitz还支持多种操作系统平台,如Windows、Linux、macOS等。

Fitz处理PDF的过程主要包括以下几个方面:

阅读PDF文件:Fitz可以打开PDF文件并进行浏览。

渲染PDF页面:Fitz能够在屏幕上显示PDF页面,并进行渲染。

处理PDF元素:Fitz可以对PDF中的各种元素进行处理,比如文本、图像、表格等等。

编辑PDF内容:Fitz可以对PDF内容进行编辑,包括添加、删除、修改等操作。

转换PDF格式:Fitz可以将PDF文件转换成其他格式,比如图片、HTML等。

提取PDF大纲源码实例

from typing import Dict

import fitz  # pip install pymupdf


def get_bookmarks(filepath: str) -> Dict[int, str]:
    # WARNING! One page can have multiple bookmarks!
    bookmarks = {}
    with fitz.open(filepath) as doc:
        toc = doc.get_toc()  # [[lvl, title, page, …], …]
        for level, title, page in toc:
            bookmarks[page] = title
            # if level == 1:
            print(title)
    return bookmarks

get_bookmarks("/Users/test.PDF")

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ArslanRobot

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值