Python实现图片中文字提取(OCR)

用Python提取图片中的文字,用到的工具包有PIL,pytesseract,tesseract-ocr
注意:
库的安装相对麻烦一点,一般都是不能直接安装成功的,这里总结了安装过程中的一些坑给大家参考。
(1)首先是PIL库安装,有的电脑可以直接从PYCHARM库里直接导入,但是大部分的电脑是安装不了的,可以采取两种方式一种是用pip install PIL这种方式一般比较慢,还有一种方法就是在PYCHARM库里面直接安装pillow-PIL安装成功后就不会报错了。
(2)然后就是pytesseract库的安装,在pycharm库里面可以直接搜索到然后安装。这两个库安装完成后运行代码还是会报错:‘tesseract is not installed or it’s not in your path’,原因是没有找到 Tesseract-OCR\tesseract.exe 的位置,需要先下载tesseract.exe具体安装参考:下载安装链接
安装完成后打开pytesseract源码查找 tesseract_cmd = ‘tesseract’,修改成红色方框里面是刚才安装的目录。软件安装路径
库安装好之后运行代码:

from PIL import Image

import pytesseract

images=Image.open('003.jpg')
print(images.size)
text=pytesseract.image_to_string(images)
print(text)

结果:
在这里插入图片描述
在这里插入图片描述
如果要提取中文文字还需安装相关的新的库,把下载的中文库放在 Tesseract-OCR 安装目录下的 tessdata 文件夹中。
下载链接:中文库下载
下载完之后运行代码:

import pytesseract
from PIL import Image

im_en = Image.open('003.jpg')
im_ch = Image.open('004.jpg')

print('========识别字母========')
print(pytesseract.image_to_string(im_en), '\n\n')

print('========识别中文========')
print(pytesseract.image_to_string(im_ch, lang='chi_sim'))

结果:
在这里插入图片描述
在这里插入图片描述
至此实现了用Python的工具包实现OCR字符提取的功能,包括中文和英文字符的提取,一个简单的小例子啦~~

  • 16
    点赞
  • 171
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC Studio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值