利用python pytesser 识别简单验证码

最新推荐文章于 2024-07-31 17:39:14 发布

张小琦

最新推荐文章于 2024-07-31 17:39:14 发布

阅读量9.1k

点赞数

分类专栏： Python 文章标签： python 验证码图像识别 Pyte

本文链接：https://blog.csdn.net/zq602316498/article/details/37817341

版权

本文介绍了在进行数据爬取时遇到验证码识别问题，如何利用Python的PIL库和pytesser模块来识别简单的验证码。虽然作者对图像识别算法不熟悉，但通过安装PIL、Tesseract和pytesser，实现了验证码识别的基本功能。后续可以通过调整参数提升识别准确率。

摘要由CSDN通过智能技术生成

最近在学python ，开始写点简单的爬虫小程序。真真感觉到python写爬虫软件很是简单。
但在写的过程中，也遇到了好多问题，有需要设置User-Agent的，有需要处理重定向，有需要设置cookies的等等。

在爬取一些需要验证的之类网站的数据时，验证码图片识别几乎是无法避免需要解决的问题。

楼主虽然是计算机专业的，但是对于图片识别算法之类的从来没有接触过。虽然可以搜索到许多的现成代码，但大部分都是需要定制的，例如有专门处理删除线图片的代码，专门去除噪点的代码等等。更是对一些高大上的算法，比如截图，二值化、中值滤波去噪、分割、紧缩重排（让高矮统一）、字库特征匹配识别等等两眼一抹黑。

在网上闲逛，发现了后来找到一个python OCR软件pytesser。只需要简单的一句代码就可以实现上面这种验证码的识别。但是这个插件并不支持所有的验证码识别，如果图片高低不等的话是无法实别出来的。太复杂的验证码也没办法实别。毕竟对于那种高端验证码，也不能指望一个类库就能解决问题 -_-

不过还是听起来很动人。于是开始动手捣鼓。查了下相关资料，发现这东西还挺复杂，有好多依赖。
PyTesser uses the Tesseract OCR engine, converting images to an accepted format and calling the Tesseract executable as an external script. A Windows executable is provided along with the Pyth