爬虫、Selenium、webUI自动化使用PIL+pytesseract识别验证码以及识别错误解决方案

背景:

大家在做爬虫或web端的UI自动化时会经常遇到的就是验证码,那怎么识别这验证码也是我们目前遇到的难题。(在这里咱们先不讨论:1.点击类的验证 2.滑动类的验证 3.中文类的验证)

简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。图形通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等非几何属性组成。计算机涉及到的几何图形处理一般有 2维到n维图形处理,边界区分,面积计算,体积计算,扭曲变形校正。对于颜色则有色彩空间的计算与转换,图形上色,阴影,色差处理等等。

环境:

Python3.7

PIL

pytesseract

1、安装Python3.7

2、安装PIL库

3、安装pytesseract库

思路:

1、图片降噪

2、图片切割

3、图像文本输出

3.1 图片降噪

所谓降噪就是把不需要的信息通通去除,比如背景,干扰线,干扰像素等等,只剩下需要识别的文字,让图片变成2进制点阵最好。

对于彩色背景的验证码:每个像素都可以放在一个5维的空间里,这5个维度分别是,X,Y,R,G,B,也就是像素的坐标和颜色,在计算机图形学中,有很多种色彩空间,最常用的比如RGB,印刷用的CYMK,还有比较少见的HSL或者HSV,每种色彩空间的维度都不一样,但是可以通过公式互相转换。在RGB空间中不好区分颜色,可以把色彩空间转换为HSV或HSL。色彩空间参见:http://baike.baidu.com/view/3427413.htm

识别验证码图片如下:

代码:

1、打开图片转化成灰度

import pytesseract
from PIL import Image


#1、导入Image包,打开图片
im = Image.open('1.jpg')


#2、把彩色图像转化为灰度图像。RBG转化到HSI彩色空间,采用L分量:
imgry = im.convert('L')
imgry.show()

转化成灰度效果如下:(还是比较模糊不能很好的被识别)

2、二值化处理

二值化是图像分割的一种常用方法。在二值化图象的时候把大于某个临界灰度值的像素灰度设为灰度极大值,把小于这个值的像素灰度设为灰度极小值,

从而实现二值化(一般设置为0-1)。根据阈值选取的不同,二值化的算法分为固定阈值和自适应阈值,这里选用比较简单的固定阈值。

把像素点大于阈值的设置,1,小于阈值的设置为0。生成一张查找表,再调用point()进行映射。

threshold = 140
table = []




for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
out = imgry.point(table, '1')
out.show()


二值化处理后的效果如图:

解决问题:

第一个错误:

1.FileNotFoundError:[WinError 2] 系统找不到指定的文件The system cannot find the file specified:

解决方案:

方案1:将tesseract.exe添加到系统的环境变量path中

方案2:修改pytesseract.py文件,指定tesseract.exe安装路径打开pytesseract的安装目录(这是我的目录:C:\Users\Administrator\venv\Lib\site-packages\pytesseract)找到并打开:pytesseract.py文件

注释掉原本的:

#tesseract_cmd=‘tesseract’

新增tesseract_cmd 为tesseract.exe的安装路径

tesseract_cmd= ‘D:\Program Files\Tesseract-OCR\tesseract.exe’

这样系统找不到指定的文件这个错误就可以解决了。

第二个错误:

2.解决上面的问题后运行代码又出错:

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\\Program Files (x86)\\Tesseract-OCR\\tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'eng\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

解决方案:

在代码中添加:

pytesseract.pytesseract.tesseract_cmd = 'c://Program Files (x86)//Tesseract-OCR//tesseract.exe'




tessdata_dir_config = '--tessdata-dir "c://Program Files (x86)//Tesseract-OCR//tessdata"'




然后在指定的image_to_string配置下




image_to_string(image, lang = 'eng', config=tessdata_dir_config)

识别成功


本公众号全部原创已整理成一个专栏,请在公众号里回复「测试开发」获取!
推荐阅读:
App自动化测试方案。

浅谈如何自动化生成测试脚本...

有没有好到简历模版可以参考一下

测试技术资源大放送!包括但不限于:测试理论,测试开发,Python,Java,自动化测试,人工智能测试,测试管理,测试工具,性能测试,接口测试,安全测试,app专项测试,招聘内推,求职,selenium,appium,jmeter,linux,mysql,测试课程,等等。在下面公众号内回复「1024」,即可免费获取!!

展开阅读全文

Python数据分析与挖掘

01-08
92讲视频课+16大项目实战+源码+¥800元课程礼包+讲师社群1V1答疑+社群闭门分享会=99元   为什么学习数据分析?       人工智能、大数据时代有什么技能是可以运用在各种行业的?数据分析就是。       从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。    本课程共包含五大模块: 一、先导篇: 通过分析数据分析师的一天,让学员了解全面了解成为一个数据分析师的所有必修功法,对数据分析师不在迷惑。   二、基础篇: 围绕Python基础语法介绍、数据预处理、数据可视化以及数据分析与挖掘......这些核心技能模块展开,帮助你快速而全面的掌握和了解成为一个数据分析师的所有必修功法。   三、数据采集篇: 通过网络爬虫实战解决数据分析的必经之路:数据从何来的问题,讲解常见的爬虫套路并利用三大实战帮助学员扎实数据采集能力,避免没有数据可分析的尴尬。   四、分析工具篇: 讲解数据分析避不开的科学计算库Numpy、数据分析工具Pandas及常见可视化工具Matplotlib。   五、算法篇: 算法是数据分析的精华,课程精选10大算法,包括分类、聚类、预测3大类型,每个算法都从原理和案例两个角度学习,让你不仅能用起来,了解原理,还能知道为什么这么做。
©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值