# -*- coding: utf-8 -*-
导入需要使用的os、pdfplimber包
import os
import pdfplumber
#提取PDF文件中某一页的文本内容
自定义函式名def extract_text_info(filepath, save_dirpath, save_filename, Page)
"""
提取PDF中的文字
@param filepath:文件路径
@param Page:获取的页码(第一页从0开始)
@return:
"""
def extract_text_info(filepath, save_dirpath, save_filename, Page):
save_path = os.path.join(save_dirpath, save_filename+'.txt')
file = open(save_path, 'w')
with pdfplumber.open(filepath) as pdf:
page = pdf.pages[Page]
print(page.extract_text())
file.write(page.extract_text())
file.close()
提取文字内容
# Page=2获取第2页数据
extract_text_info(r'E:\learn\PDF相关处理\PDF提取文本\PDF文本.pdf',r'E:\learn\PDF相关处理\PDF提取文本','提取文本内容',Page=2)
#提取整个PDF文件的所有页的内容
自定义函式名def extract_all_text_info(filepath, save_dirpath, save_filename)
"""
提取PDF中的文字
@param filepath:文件路径
@param Page:获取的页码(第一页从0开始)
@return:
"""
def extract_all_text_info(filepath, save_dirpath, save_filename):
save_path = os.path.join(save_dirpath, save_filename+'.txt')
file = open(save_path, 'w',encoding='utf-8')
with pdfplumber.open(filepath) as pdf:
# 获取全部数据
for page in pdf.pages:
print(page.extract_text())
file.write(page.extract_text())
file.close()
extract_all_text_info(r'E:\learn\PDF相关处理\PDF提取文本\PDF文本.pdf',r'E:\learn\PDF相关处理\PDF提取文本','提取全部文本内容')