人口普查分析：利用python+百度文字识别提取图片中的表格数据

最新推荐文章于 2024-07-09 10:11:40 发布

文仙草

最新推荐文章于 2024-07-09 10:11:40 发布

阅读量1.1k

点赞数

分类专栏： Python 文章标签：自然语言处理 python 经验分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55245023/article/details/116664932

版权

本文介绍了如何使用Python的pdfplumber和百度智能云的文字识别服务，从PDF中提取表格数据并转存为Excel。尽管pdfplumber对不规则表格处理效果不佳，而百度文字识别需先将PDF转为图片，但能处理边框缺失的表格。作者详细阐述了使用百度智能云服务的步骤，包括注册、创建应用、安装SDK以及调用接口实现表格识别和结果下载。

摘要由CSDN通过智能技术生成

今天发布了最新的人口普查结果，笔者拿到的文件是pdf格式（网上应该有）。之前就一直想实现从pdf提取表格数据，输出为excel。正好这次有公开数据，因此打算用来练个手。

尝试了两种方法：

1.python的pdfplumber包：利用pdfpumber中的extract_table()方法，可以直接将pdf中表格抽取转换成excel，但是对于不规则的表格（比如有合并单元格、分布在两页中）抽取效果不太理想

2. python+百度智能云的文字识别：需要把pdf先转换成图片，再通过图片识别完成（其实。。。感觉有些多此一举。。。），不过对于边框有缺失的表格感觉效果一般。

以下是用 python+百度智能云的文字识别抽取表格信息的步骤：

零经验新手第一次尝试，正好写的稍微细致一些

声明：代码使用python3实现

！！！前期准备

1. 注册百度智能云账号：也可以用百度云账号。需要完成实名认证，并进行刷脸认证（这一步被迫下载了百度智能云app，吐槽！！为什么要另外下载app，用百度云app不香么。。。）

2. 登录百度智能云并开通通用文字识别的应用：在这个官方网站里https://ai.baidu.com/tech/ocr/general选择免费使用就行（新手练习的次数够了，我爱开放平台！）

百度智能云界面-全局

3. 创建应用：这一步是为了获取后续请求接口时需要使用到的API Key和Secret Key，个人理解有点像用户名和密码，发送请求和获取结果接口的时候需要使用到。点击上图中左边栏的”文字识别“，然后出现下图的界面后，点击”创建应用”即可。具体该怎么创建，也可以百度搜索，此处省略一些描述。。。

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
人口普查分析：利用python+百度文字识别提取图片中的表格数据

#调用pdfplumber, pandas,re库import pdfplumberimport pandas as pdimport re#创建一个空列表用于存储pdf中的表格tables = []#打开需要读取的pdf文件，并赋值给名字为pdf的变量。注意，此处为不写文件的路径，因此我将该pdf文件与本代码文件放在一个文件夹里。with pdfplumber.open('第七次全国人口普查主要数据情况.pdf') as pdf: #对pdf中每页的信息进行 for ...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。