【python】提取word\pdf格式内容到txt文件

学废了wuwu

已于 2025-02-24 10:33:03 修改

阅读量1.8k

点赞数 38

文章标签： python word pdf

于 2025-02-24 10:31:44 首次发布

本文链接：https://blog.csdn.net/weixin_51122828/article/details/145822301

版权

一、使用pdfminer提取

import os
import re
from pdfminer.high_level import extract_text
import docx2txt
import jieba

def read_pdf(file_path):
    """
    读取 PDF 文件内容
    :param file_path: PDF 文件路径
    :return: 文件内容文本
    """
    try:
        text = extract_text(file_path)
        return text
    except Exception as e:
        print(f"读取 PDF 文件 {file_path} 时出错: {e}")
        return None

def read_docx(file_path):
    """
    读取 Word 文件内容
    :param file_path: Word 文件路径
    :return: 文件内容文本
    """
    try:
        text = docx2txt.process(file_path)
        return text
    except Exception as e:
        print(f"读取 Word 文件 {file_path} 时出错: {e}")
        return None

def clean_text(text):
    """
    清理文本，去除无关字符和空白行
    :param text: 原始文本
    :return: 清理后的文本
    """
    if text is None:
        return None
    # 去除特殊字符
    text = re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9\s]', '', text)
    # 去除多余的空白行
    text = re.sub(r'\n+', '\n', text).strip()
    return text

def tokenize_text(text):
    """
    对文本进行分词
    :param text: 输入文本
    :return: 分词后的字符串，以空格分隔
    """
    if text is None:
        return ""
    return " ".join(jieba.lcut(text))

def preprocess_files(folder_path, output_folder):
    """
    对指定文件夹中的 PDF 和 Word 文件进行预处理，并保存处理后的结果
    :param folder_path: 包含原始文件的文件夹路径
    :param output_folder: 保存处理后文件的文件夹路径
    """
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    for root, dirs, files in os.walk(folder_path):
        for file in files:
            file_path = os.path.join(root, file)
            if file.endswith('.pdf'):
                text = read_pdf(file_path)
            elif file.endswith('.docx'):
                text = read_docx(file_path)
            else:
                continue
            cleaned_text = clean_text(text)
            tokenized_text = tokenize_text(cleaned_text)

            # 生成输出文件名
            file_name, _ = os.path.splitext(file)
            output_file_path = os.path.join(output_folder, f"{file_name}_processed.txt")

            # 保存处理后的文本到文件
            with open(output_file_path, 'w', encoding='utf-8') as f:
                f.write(tokenized_text)

            print(f"处理并保存文件: {output_file_path}")

# 示例使用
if __name__ == "__main__":
    input_folder = 'your_input_folder_path'  # 替换为实际包含 PDF 和 Word 文件的文件夹路径
    output_folder = 'your_output_folder_path'  # 替换为实际保存处理后文件的文件夹路径
    preprocess_files(input_folder, output_folder)

代码解释

tokenize_text 函数修改：此函数将分词后的结果用空格连接成字符串，方便后续保存到文件。
preprocess_files 函数扩展：
- 增加了 output_folder 参数，用于指定保存处理后文件的文件夹路径。
- 检查输出文件夹是否存在，如果不存在则创建。
- 对于每个处理后的文件，生成对应的输出文件名，格式为原文件名加上 _processed.txt。
- 使用 with open 语句将处理后的文本写入到对应的输出文件中。
主程序调用：需要将 your_input_folder_path 替换为实际包含 PDF 和 Word 文件的文件夹路径，将 your_output_folder_path 替换为实际保存处理后文件的文件夹路径。运行代码后，处理后的文本将保存到指定的输出文件夹中。
测试相对路径：

    # 打印绝对路径
    #使用os.path.exists 函数检查输入和输出路径是否存在
    abs_input_folder = os.path.abspath(input_folder)
    abs_output_folder = os.path.abspath(output_folder)
    print(f"输入文件夹的绝对路径: {abs_input_folder}")
    print(f"输出文件夹的绝对路径: {abs_output_folder}")

    # 检查路径是否存在
    if os.path.exists(abs_input_folder):
        print("输入文件夹路径存在。")
    else:
        print("输入文件夹路径不存在。")

    preprocess_files(input_folder, output_folder)

二、其他库和软件

除了 pdfminer 外，还有许多其他可以提取 PDF 文本的工具：

Python 库

1. PyPDF2

特点：一个纯 Python 编写的库，用于处理 PDF 文件，功能较为基础，能够实现简单的文本提取、合并、分割等操作，使用起来比较简单。
示例代码

import PyPDF2

def extract_text_pypdf2(pdf_path):
    text = ""
    with open(pdf_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        num_pages = len(pdf_reader.pages)
        for page_num in range(num_pages):
            page = pdf_reader.pages[page_num]
            text += page.extract_text()
    return text

pdf_path = 'your_pdf_file.pdf'
extracted_text = extract_text_pypdf2(pdf_path)
print(extracted_text)

2. pdfplumber

特点：基于 pdfminer 开发，提供了更高级、更方便的 API，能够处理更复杂的 PDF 布局，支持表格提取、页面分析等功能，对于具有结构化数据的 PDF 文件处理效果较好。
示例代码

import pdfplumber

def extract_text_pdfplumber(pdf_path):
    text = ""
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text += page.extract_text()
    return text

pdf_path = 'your_pdf_file.pdf'
extracted_text = extract_text_pdfplumber(pdf_path)
print(extracted_text)

3. tika

特点：是基于 Apache Tika 的 Python 封装，Tika 是一个强大的内容分析工具，支持多种文件格式的解析，包括 PDF。它可以处理各种复杂的 PDF 文件，并且能够自动检测文件类型和编码。
示例代码

from tika import parser

def extract_text_tika(pdf_path):
    parsed = parser.from_file(pdf_path)
    return parsed['content']

pdf_path = 'your_pdf_file.pdf'
extracted_text = extract_text_tika(pdf_path)
print(extracted_text)

独立软件工具

1. Adobe Acrobat Pro DC

特点：Adobe 公司开发的专业 PDF 编辑软件，功能强大，除了文本提取外，还支持 PDF 的创建、编辑、注释、签名等多种操作。可以通过复制粘贴或导出为其他格式（如文本、Word 等）来提取 PDF 中的文本。
操作步骤：打开 PDF 文件，选择“文件” - “另存为”，在保存类型中选择“纯文本”，然后指定保存路径和文件名即可。

2. Smallpdf

特点：一款在线 PDF 处理工具，提供了多种 PDF 处理功能，包括文本提取。无需安装软件，只需在浏览器中访问其网站，上传 PDF 文件，即可快速提取文本。支持免费使用，但对文件大小和处理次数有一定限制。
操作步骤：访问 Smallpdf 网站，选择“PDF 转 TXT”功能，上传 PDF 文件，等待处理完成后下载提取的文本文件。