如何提高Python图像表格数据提取的准确率?



1、数据来源


国家统计局:http://www.stats.gov.cn/sj/

在这里插入图片描述

数据来源:国家统计局中国统计年鉴2022年人口数及构成

2、目标图像


数据(部分)如下:

在这里插入图片描述

通过网页分析,数据为图片格式

数据形式:http://www.stats.gov.cn/sj/ndsj/2022/html/C02-01.jpg

在这里插入图片描述

3、图像文本提取


本次图像文本识别使用EasyOCR模块,详细介绍见:Python图像文本识别

import easyocr
import numpy as np
import pandas as pd
# 读取HTTP图像
url = r'http://www.stats.gov.cn/sj/ndsj/2022/html/C02-01.jpg'

# 定义列字段
cols = ['年份', '年末总人口(万)', '男.人口数(万)', '男.比重', '女.人口数(万)', '女.比重', '城镇.人口数(万)', '城镇.比重', '乡村.人口数(万)', '乡村.比重']

# 使用easyocr从图像中提取文本
reader = ea
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值