【OpenCV + Python】OCR识别

Python中的的tesserocr这个库好像使用的比较多,所以对这个库进行了一番研究,并且实现了那个后台网站验证码的识别。

  1. 安装tesserocr
    由于我使用的Python版本是python3.5,所以一下所有操作都是基于python3的。首先需要下载tesseract,它为tesserocr提供底层支持。具体下载官方路径:https://github.com/UB-Mannheim/tesseract/wiki, 选择对应的系统版本,可以选择一个相对不带dev的稳定版本下载,如:tesseract-ocr-setup-3.05.02-20180621.exe。然后一路安装,唯一记得勾选Additional language data(download),勾选可能会用到的语言tessdata,如简体、繁体中文,数学模块等,不需要全选,下载tessdata的时间会比较长。
    然后安装python3对应的tesserocr库,通常我们安装库的方法是使用命令pip install tesserocr,但是这里会报错:“error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”, 这个时候不宜直接去下载Microsoft Visual C++ Build Tools,而是使用原始的whl文件方式安装。tesserocr 的whl官方文件下载路径:https://github.com/simonflueckiger/tesserocr-windows_build/releases, 下载本地环境对应的whl文件,如我的是window64位系统,python版本是3.5。下载完后,使用cd跳转到whl文件所在目录,然后 执行 ”pip install tesserocr-2.2.2-cp35-cp35m-win_amd64.whl“,即可轻松完成安装。

但是安装后依然会遇到这个问题:
作者:大王大大王
原文:https://blog.csdn.net/wang_hugh/article/details/80760940

使用pytesseract识别验证码中遇到异常如下:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your path
检查源码(pytesseract.py),发现如下说明:
#CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = ‘tesseract’
安装后的默认文件路径为(这里使用的是Windows版本):C:\Program Files (x86)\Tesseract-OCR
然后将源码中的:
tesseract_cmd = ‘tesseract’
更改为:
tesseract_cmd = r’C:\Program Files (x86)\Tesseract-OCR\tesseract.exe’
再次运行之前的PY脚本,成功.

import cv2
import numpy as np
from PIL import Image
import pytesseract as tess

def recognize_text(img):
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    cv2.imshow("binimg", gray)
    ret, binnary = cv2.threshold(gray, 100, 255, cv2.THRESH_OTSU)
    cv2.imshow("binmg", binnary)
    kerhel1 = cv2.getStructuringElement(cv2.MORPH_RECT, (3, 3))
    bin1 = cv2.morphologyEx(binnary, cv2.MORPH_OPEN, kerhel1, iterations=1)
    kerhel2 = cv2.getStructuringElement(cv2.MORPH_RECT, (2, 1))
    bin2 = cv2.morphologyEx(binnary, cv2.MORPH_OPEN, kerhel2, iterations=1)
    cv2.imshow("binary_img",bin2)
    text = tess.image_to_string(bin2)
    print("识别结果:"%text)

img = cv2.imread('12.jpg',1)
cv2.namedWindow('img', 0)
cv2.namedWindow('binnary', 0)
cv2.namedWindow('sure_bg', 0)
cv2.namedWindow('dist', 0)
cv2.namedWindow('surface', 0)
cv2.namedWindow('return', 0)
cv2.resizeWindow('img', 480, 320)
cv2.resizeWindow('binnary',400, 320)
cv2.resizeWindow('sure_bg',400, 320)
cv2.resizeWindow('dist',400, 320)
cv2.resizeWindow('surface',400, 320)
cv2.resizeWindow('return',480, 320)
cv2.imshow('img', img)
recognize_text(img)
cv2.waitKey(0)
cv2.destroyAllWindows()

在这里插入图片描述

在这里插入图片描述

  • 7
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖子工作室

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值