上篇文章得到了text,如何保存和处理呢?
直接使用代码
import os
import re
from pdfminer.high_level import extract_text
def extract_and_save_text_by_filename(pdf_folder, output_folder, start_str, end_str):
"""
提取PDF文件夹中所有文件的文本,并按照文件名保存到指定输出文件夹。
:param pdf_folder: PDF文件所在的文件夹路径
:param output_folder: 提取文本保存的文件夹路径
:param start_str: 起始字符串
:param end_str: 结束字符串
"""
# 确保输出文件夹存在
if not os.path.exists(output_folder):
os.makedirs(output_folder)
# 遍历PDF文件夹中的所有PDF文件
for filename in os.listdir(pdf_folder):
if filename.lower().endswith('.pdf'):
pdf_path = os.path.join(pdf_folder, filename)
text = extract_text(pdf_path)
# 查找起始和结束字符串的位置
matches = [m.start() for m in re.finditer(start_str, text)]
if len(matches) < 2:
print(f"'{start_str}' 在 {filename} 中出现次数不足两次。")