python 验证码识别
pytesseract识别
图片预处理
这是需要处理的验证码的样子 我们需要去除干扰因素来增加OCR的识别成功率(但是最好别照着抄代码,得根据情况自己调整0
准备工作
import cv2 as cv
from PIL import Image
import pytesseract
img = cv.imread('test.jpg')
首先导入需要处理的图片和需要用到的第三方库
边缘保留滤波 去噪
blur = cv.pyrMeanShiftFiltering(img, sp=10, sr=50) # sp :定义的漂移物理空间半径大小 sr:定义的漂移色彩空间半径大小
弄好了可以去除干扰线和干扰因素,但是需要注意别把字母和数字调没了
灰度
# 灰度
gray = cv.cvtColor(blur, cv.COLOR_BGR2GRAY)
处理之后你的图片只有灰色
二值化
# 二值化
ret, binary = cv.threshold(gray, 127, 255, cv.THRESH_BINARY_INV) # 1.全局阈值法 THRESH_BINARY:表示小于阈值置0,大于阈值置填充色
二值化处理之后非黑即白 需要自己定义全局阈值 当然你也可以选择其他模式
处理结果
处理完之后你会得到这样一张图片:
识别结果:
咱们当然不会就这样放弃了 咱们要学会
下面马上介绍第二种白嫖的方法
白嫖的ddddocr
下载
pip3 install ddddocr
建议换源
- 豆瓣:http://pypi.douban.com/simple/
- 中科大:https://pypi.mirrors.ustc.edu.cn/simple/
- 清华:https://pypi.tuna.tsinghua.edu.cn/simple
识别
import ddddocr
ocr = ddddocr.DdddOcr()
result = ocr.classification(res_pic.content) # 图片以二进制传入
一句话搞定还不用自己训练模型 维尔古德