验证码是许多网站都采取的反爬虫机制,随着技术的发展,验证码出现了各种各样的形态。从一开始的几个数字,发展到随机添加几个英文字母以及混淆曲线、彩色斑点、滑动拼图等,形态越来越复杂。本篇博文将介绍如何使用 OCR 技术实现字符验证码的识别、如何使用第三方验证码识别平台识别验证码以及滑动拼图验证码的校验工作。
一、字符验证码
字符验证码的特点就是验证码中包含数字、字母或者掺杂着斑点与混淆曲线的图片验证码。识别此类验证码,首先需要找到验证码图片在网页 HTML 代码中的位置,然后将验证码下载,最后再通过 OCR 技术进行验证码的识别工作。
1.1 搭建 OCR 环境
Tesseract-OCR 是一个免费、开源的 OCR 引擎,通过该引擎可以识别图片中的验证码,搭建 OCR 的具体步骤如下:
(1) 点击 此处 打开 Tesseract-OCR下载地址,然后选择与自己操作系统匹配的版本(博主电脑为 Windows 64位操作系统),如下图所示。
(2)