tesseract

图形验证码识别技术

  • 有时候在登录或者请求一些数据时侯会出现图形验证码,因此需要学会将图片翻译成文字的技术
  • 将图片翻译成文字一般被称为光学文字识别(optical character recognition),简称 OCR,实现 OCR 的库不是很多,特别是开源的,因为这块存在一定的技术壁垒(需要大量的数据,算法,机器学习,深度学习知识等),并且如果做好了具有很高的商业价值,因此开源的比较少,我们这里用 tesseract

tesseract

  • tesseract 是一个 OCR 库,目前由谷歌赞助,tesseract 是目前公认的最优秀,最准确的开源 OCR 库,tesseract 具有很高的识别度,也具有很高的灵活性,可以通过训练识别任何字体

安装

windows 系统

  • 在以下链接下载可执行文件,然后一直点击下一步安装即可(放在不需要权限的纯英文路径下)https://github.com/UB-Mannheim/tesseract/wiki
  • 有识别语言的选项,根据自己需求勾选
  • 安装完要添加环境
    在这里插入图片描述
    在这里插入图片描述

linux 系统

在 win 命令行中使用 tesseract 识别图像

tesseract image.png result	# image.png 为想要识别的图片,result 为识别的结果
tesseract --list-langs	# 查看已有的语言列表
tesseract chi.png chi.txt -l chi_sim	# -l:选择语言  chi_sim:简体中文

在这里插入图片描述

python 中使用 tesseract

  • 在 python 中,需要安装 pytesseract 库,通过 pip 安装
    pip install pytesseract# 这里自动安装 PIL.Image`
  • 使用 pytesseract 将图片上的文字转换为文本文字如下:
import pytesseract

from PIL import Image

text = pytesseract.image_to_string(Image.open(r'D:\image.png'))
print(text)

在这里插入图片描述

  • 原图:
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值