Tesseract图形验证码识别
Tesseract是一个将图像翻译成文字的OCR(光学文字识别)
一、tesseract 使用
import pytesseract
from PIL import Image
# PIL(Python Imaging Library) 图形处理库
# 指定Tesseract的安装路径和数据包的路径
pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'
tessdata_dir_config = r'--tessdata-dir "D:\Program Files\Tesseract-OCR\tessdata"'
image = Image.open('7364.jpg')
# 第一个参数图片 第二个参数语言 第三个参数配置
print(pytesseract.image_to_string(image, lang='eng', config=tessdata_dir_config))
二、pytesseract处理图形验证码
import pytesseract
from PIL import Image
from urllib import request
import time
# 指定Tesseract的安装路径和数据包的路径
pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'
tessdata_dir_config = r'--tessdata-dir "D:\Program Files\Tesseract-OCR\tessdata"'
while True:
url='https://passport.lagou.com/vcode/create?from=register&refresh=1513081451891'
request.urlretrieve(url,'code.png')
image = Image.open('code.png')
text=pytesseract.image_to_string(image, lang='eng', config=tessdata_dir_config)
print(text)
time.sleep(2)