概述
我们在写爬虫脚本时,经常会遇到验证码阻碍我们的道路。特别是这个网站的资料又非常重要,所以不得不研究一下怎么让机器自动识别。对于一些不太复杂的验证码,我们可以直接用现成的开源引擎Tesseract识别。
如下面的图片,数字还是很清晰,也没有什么偏转,字母粘连也不是很严重。在实际测试中,基本50%以上的验证码可以一次通过。
Tesseract就是开源引擎里的执牛耳项目。起源于惠普实验室并在1984-1994年间大力发展的Tesseract,曾一度可与商业OCR软件比肩。2005年,HP在GoogleCode上将Tesseract开源,2006年开始由谷歌赞助,并由Ray Smith负责该项目。
Tesseract支持的语言非常多,每种语言有相应的语言包可以下载。但是从中文的情况来看,貌似效果不是太好,识别率几乎不可商用。相关论文中提到中文的准确率在95%以上,不知道实际的测试样本是怎么样的。英文准确率还不错,可以直接拿来用。这也是为什么这篇文章只能用于简单的中英文验证码。
Tesseract 环境搭建
在Ubuntu下,你可以直接用 sudo apt-get install tesseract 来安装。也可以按照这里的步骤编译安装。【tesseract compiling】语言包一般放在 /usr/local/share/tessdata 或者 /usr/share/tessdata 中

本文介绍了如何利用Tesseract OCR引擎来识别验证码。首先讲解了Tesseract的环境搭建过程,接着探讨了预处理阶段,包括图像格式转换和使用OpenCV进行预处理。通过OpenCV进行灰度化和二值化操作后,使用Tesseract命令行工具进行识别。最后提供了相关资源链接以供深入学习。
最低0.47元/天 解锁文章
1124

被折叠的 条评论
为什么被折叠?



