Python3,自动识别图片文字,这个库,我爱了。

1、引言

小鱼:小屌丝,你在干啥呢?
小屌丝:我女神给我的任务啊,把图片上的文字都给写下来。
小鱼:这图片上的文字,可不少啊,你都是手敲的??
小屌丝:可不,不然还有啥法子?
在这里插入图片描述
小鱼:我敬佩你是一条汉子。
小屌丝:鱼哥,难道你有什么好的法子?
小鱼:嗯,突然想到的, OCR 。
小屌丝:那你还不赶紧救救我,
小鱼:唉~ ~ 好吧…

图像识别,这里就要提到OCR了,
但是提到OCR,又不得不提到的两个库:

  • cnocr :识别图片的汉字;
  • Pytesseract:识别图片的英文

分别对图片的文字的中文和英文进行识别的。
话不多说,我们直接代码示例演示。

2、Cnocr

2.1 安装

老规矩,直接pip 安装

pip install cnocr

其它安装方式,直接看这两篇:

Python3,选择Python自动安装第三方库,从此跟pip说拜拜!!
Python3:我低调的只用一行代码,就导入Python所有库!

提示一下,
cnocr下的torch 有161.8MB,
所以下载的话,最好在网速快或者国内镜像网站进行下载,否则就会下载失败。
在这里插入图片描述

2.2 代码示例

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-10-16
# @Author : Carl_DJ
'''
实现功能:
	识别图片中的汉字
'''
from cnocr import CnOcr

#图片名称
file_name = './data/cn_name.png'
ocr = CnOcr()
result = ocr.ocr(file_name)
print(f"Predicted Chars:{result}")

3、Pytesseract

3.1 安装

1、pytesseract
老规矩,直接pip 安装

pip install pytesseract

2、Tesseract
Windows版本,需要手动安装,下载地址如下:

3.1 代码示例

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-10-16
# @Author : Carl_DJ
'''
实现功能:
	识别图片中的英文
'''
import pytesseract
from PIL import Image

#图片名称
file_name = './data/en_name.png'
#打开图片
image = Image.open(file_name)

result = pytesseract.image_to_string(image, lang='eng')
print(f'识别结果:{result}')

4、总结

看到这里,今天的分享就到这里了。
关于识别图片中的文字,这里例举了OCR中的 cnocr 与pytesseract,
其实代码很简单,只是安装过程中需要一点点的耐心。

我是小鱼:

关注我,带你学习Python领域更多更专业的技能。

  • 4
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
### 回答1: 以下是一个简单的Python代码,可以使用PythonOCR(例如PyTesseract)自动识别文档文字: ```python import pytesseract from PIL import Image # 加载图像 image = Image.open('document.jpg') # 识别文本 text = pytesseract.image_to_string(image, lang='eng') # 输出文本 print(text) ``` 这个代码首先使用PIL加载图像,然后使用PyTesseract识别文本。在这个示例中,我们将识别英文文本,因此我们将`lang`参数设置为`eng`。最后,我们将识别的文本输出到控制台。 ### 回答2: 自动识别文档文字Python代码可以使用第三方textract。首先,需要确保已安装textract,可以使用以下命令进行安装: ```python pip install textract ``` 然后,导入textract并使用`process`函数来处理文档。例如,处理一个名为`document.docx`的Word文档,可以使用以下代码: ```python import textract text = textract.process('document.docx') print(text) ``` `process`函数会自动将文档中的文字提取出来,并将其存储在一个字符串变量`text`中。你可以根据具体情况进行进一步的处理,比如将提取出的文字进行分析、保存到数据等。 需要注意的是,textract支持处理多种文件类型,包括Word文档、PDF、PowerPoint演示文稿等,你只需要将对应的文件路径传递给`process`函数即可。此外,textract也支持多种操作系统,包括Windows、Linux和Mac OS。 如果在使用过程中遇到问题,可以查阅textract的官方文档了解更多用法和示例:https://textract.readthedocs.io/ ### 回答3: 自动识别文档文字是指使用python代码实现对文档中文字自动识别和提取。一般通过OCR(Optical Character Recognition,光学字符识别)技术实现。 在Python中,可以使用第三方如Tesseract实现对文档文字自动识别。以下是一个简单的示例代码: ```python import pytesseract from PIL import Image # 读取文档图片 image = Image.open('document.jpg') # 使用Tesseract进行OCR识别 text = pytesseract.image_to_string(image, lang='eng') # 输出识别结果 print(text) ``` 上述代码首先导入了pytesseract和PIL,其中pytesseract是Tesseract的Python接口,而PIL则是用于图像处理的。接下来,使用`Image.open`函数读取文档图片,然后通过`pytesseract.image_to_string`函数进行OCR识别,`lang='eng'`参数指定了识别语言为英语。 最后,通过`print`函数输出识别结果。 需要注意的是,使用Tesseract进行OCR识别时,需要提前安装Tesseract OCR引擎,并将其添加到系统环境变量中。在Windows系统中,可以在Tesseract的官方网站(https://github.com/tesseract-ocr/tesseract)下载安装包,并按照指引进行安装。 此外,对于不同类型的文档,可能需要调整OCR识别参数,以获得更好的识别效果。可以通过查阅Tesseract文档和尝试不同的参数进行优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Carl_奕然

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值