Python实现PD文字识别、提取并写入CSV文件脚本分享

最新推荐文章于 2024-04-27 13:03:03 发布

蚂蚁爱Python

最新推荐文章于 2024-04-27 13:03:03 发布

阅读量589

点赞数

分类专栏： Python 爬虫 Python实战项目文章标签： python 爬虫数据分析

本文链接：https://blog.csdn.net/xff123456_/article/details/123823868

版权

本文介绍如何使用Python将PDF扫描件中的文字识别并写入CSV文件。首先，通过转换PDF为图片并利用OCR工具提取文字，然后处理识别内容，去除错误和空行，最后将内容按列写入CSV文件。

摘要由CSDN通过智能技术生成

扫描件一直受大众青睐，任何纸质资料在扫描之后进行存档，想使用时手机就能打开，省心省力。但是扫描件的优点也恰恰造成了它的一个缺点，因为是通过电子设备扫描，所以出来的是图像，如果想要处理文件上的内容，直接操作是无法实现的。

那要是想要引用其中的内容怎么办呢？别担心，Python帮你解决问题。
在这里插入图片描述

现有一份pdf扫描件，我们想把其中的文字提取出来并且分三列写入csv文档，内容及效果如下：
在这里插入图片描述

pdfexample
在这里插入图片描述

csvexample

在这里插入图片描述

pdf扫描件是文档扫描成电脑图片格式后转化成的，提取其中的文字就相当于识别图片内的文字。所以，我们的工作就是将pdf转成图片，再用ocr工具提取图片中的文字。

pip3 install pdf2image pytesseract

####Python学习交流群：906715085###
import os   #处理文件
from pdf2image import convert_from_path  # pdf转图片
import pytesseract  # 识别图片文字
import csv  # 处理csv文件

tess_ocr(pdf_path, lang, first_page, last_page)

将pdf文件拆分成图片，并提取文字写入文本文件

•pdf_path：pdf文件的存储路径

•image：代表PDF文档每页的PIL图像列表

•first_page ：允许设置由pdftoppm处理的第一个页面；

•last_page：允许设置最后一页由pdftoppm处理

•fmt：允许指定输出格式。目前支持的格式是jpg、png和ppm；

•output_folder：图片保存路径

def tess_ocr(pdf_path, lang,first_page,last_page):

  # 创建一个和pdf同名的文件夹
   
   images = convert_from_path

关注

专栏目录