图形验证码的识别破解

 

图形验证码为区分计算机和人而设,一般用来防止系统被机器滥用,如自动注册电子邮件帐号发送垃圾邮件、自动发送广告帖等。图形验证码最先为雅虎所采用,现在很多网站都加上了验证码功能。但是其中相当多的验证码都是不堪一击的,尤其是那些固定字体、固定背景色、前景后景对比度高的。更有甚者,有人使用文本框里的文字作为验证码,不知道他要防的是人还是机器。

既然有了验证码,就会有人想着去破解。很多验证码的破解都相当简单,只需要简单的几步就能达到目的了。具体的步骤如下:

1.获取足够的样本数量,建立样本库,每个字符拥有数十个样本应该是比较合适的。对于一些直接在白色背景上放置文字、固定大小、看起来和普通文字几乎没有差别的验证码,甚至可以每个字符只用一个或者几个样本。

2.获取目标验证码图片,将图片和样本库里的样本逐个比较,差别最小的即可断定为相应的字符。

图片的具体处理:

1.二值化。即将彩色图片转换为黑白图片,图片上所有背景色都变为黑色,文字部分则设置为白色(反过来也一样)。具体哪些颜色变黑,哪些变白,视具体情况而定,可以使用颜色提取工具或者photoshop之类的提取颜色进行尝试。

2.去杂点。由于很多验证码都加入了杂点,二值化后的图片难免也会有些杂点。去杂点的思想很简单,就是对于某个点,其周围一定范围内相同颜色的点数少于某个值,即判为杂点。对于已找出的杂点,可以用背景色填充消除掉。

3.提取单个字符。这里处理的是横向上无重叠字符的情形,所以还是相当简单。从左到右扫描每列,记录每个字符的左边界和右边界,将左右边界之间的部分剪裁出来,再对于每个切片检测上下边界,再次剪裁,得到一个个小图片。每张小图片仅包含一个字符,图片的边沿即为字符的边沿。

关于使用的编程语言

理论上说,任何能够方便处理图像的语言都能够作为破解程序的编程语言,如PHP、.net, Java、C/C++都是能够胜任的。但是验证码的破解需要进行很多次的循环比较,脚本语言运行效率方面的弱点就体现出来了,因此编译性的程序更为合适。C/C++无疑是效率最高的,但是由于其对于图形的处理过程较为复杂,因而不太适合快速开发。.net和Java对于图形处理都提供了很好的支持,无论选择哪个都是比较合适的,如果更注重效率,.net也许更适合,如果注重跨平台性,则Java更适合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值