验证码识别技术

导读:
  由于现在很多网站,为了加强安全性,以及防止程序的自动操作网站,都加入的了验证码技术。但却给广大站长推广宣传网站带来的麻烦。所以我准备写这篇关于验证码识别技术的文章,不足之处在所难免!本人从来不写东西,今天为了想落伍才写了!
  广大站长宣传推广自己的网站,经常要发布一些宣传广告,如果靠人工,太慢太昂贵,所以理想的办法是使用群发软件,可现在很多网站都有验证码,这成为群发软件的技术难点,而识别也就难点中的难点,好的,闲话少说,言归正传!
  我举的例子是比较难于识别的验证码,不讨论不变形、不换字体、不换大小、不旋转的验证码,这里我可能不会写出代码,只是提供我编写的思路,按照这个思路,我写出的程序,比市场上出售的程序的识别率还要高很多。(有兴趣的可以问我,我不想在这里帮别人宣传,呵呵~~)
  首先以数字验证码开始,字母的要比数字麻烦一些,不过搞清楚了数字验证码的识别,字母的也就不难了。
  验证码一般都是图片,而且一般都是4位数,处理过程是:先分割为4个部分,然后逐一识别,由于分割比较简单,我这里就不说了,我这里只说如何识别。
  我的方法是把需要识别的图片,划分为 5 行,3 列,15个块,为什么要划分为15个块呢?先看图!
  ○■○
  ■○■
  ■○■
  ■○■
  ○■○
  ○■○
  ■■○
  ○■○
  ○■○
  ■■■
  ■■■
  ○○■
  ■■■
  ■○○
  ■■■
  ■■■
  ○○■
  ■■■
  ○○■
  ■■■
  我先举这4个例子吧,其余的大家可以自己画出来。如果做过验证码识别的朋友,肯定很快就明白为什么划分为15个块,其实主要就是因为这样划分更合理,也就更能提高识别率。
  我的方法是把需要识别的图片,划分为 5 行,3 列,15个块,然后对每个块进行计算,当每个块里的有效象素超过多少百分比的时候,就标记为 ■,如果没超过就标记为○,(这里为了显示方便我使用了■,○,你完全可以把它标为1、0),这里要注意一下,这里的百分比根据字体的粗细可以取 67%,50%,33%,20%,为什么要取这几个数?主要和计算机的浮点数运算有关,选这几个数,运算更快,且不容易出错,否则计算机在进行大量计算时也是会出错的!当然这里,你完全可以选适合你的验证码图片的百分比!!
  如果验证码不变形、不换字体、不换大小、不旋转,我们的识别工作到这一步基本上就结束了,因为已经可以得到比较清晰的块图,对付大多数论坛,就已经足够了。^_^
  如果验证码的变形比较大、且有很多字体、大小也不固定、且有旋转,那么我们经过划分、取比率显示后,可能会得到这样一个图:
  ○■○
  ○○■
  ○■○
  ■○○
  ■■■
  那么这个数字应该是什么数字,我们需要使用排除法!排除所有不可能,在0123456789中,这个图不可能是013456789,他只能是 :2。
  写过验证码识别的朋友可能已经明白了!是的,我们需要建立一个类似的数据库,也就是识别库,出现哪些图,他就属于那个数字。
  再举一个例子:
  ○■○
  ■○○
  ■■■
  ■○■
  ○■○
  这是哪个数字呢??是6,没错
  我这里我需要再说明一下为什么要取5行,3列,15个块,因为块太多了你 的识别库就会很大,块太少了,就会出现很多分不清楚的块图。
  另外你取的百分比也需要注意,不能太大也不能太小。
  好了,等做好自己的数据库,这时就可以识别大部分数字了。
  最后还有一个问题,就是重复的问题,比如,图片上的数字,明明是 5,可由于它的字体不是常见的字体,且发生了旋转,最后得到这样一个图:
  ■■■
  ■○○
  ■■■
  ■○■
  ■■■
  在我的数据库里,这个块图,是6,也是就说识别错误,怎么办?
  我的解决方法是,在数据库里先把这条数据删除因为这个是错误的。
  遇到这种情况,就需要进行二次处理,我的方法是:降低百分比,这时就得到了:
  ■■○
  ■○○
  ■■○
  ○○■
  ■■○
  OK,经过降低百分比,图片就由“6”又变为“5”了,呵呵~~~由于降低了百分比,我们需要再建立一个识别库的来存储这些数据。

本文转自
http://www.mx68.com/WebDeveloper/2007-01-10/WebDeveloper_82745.shtml
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
验证码识别技术是指通过机器学习方法来自动识别和破解验证码。传统的验证码通常是由数字、字母、符号等随机组合而成的图像或文本,用于验证用户身份或防止恶意攻击。 基于机器学习的验证码识别技术主要分为以下几个步骤: 1. 数据收集:收集大量的验证码样本作为训练数据。这些样本应该具有一定的多样性,包括不同的字体、大小、颜色和扭曲程度等。 2. 数据预处理:对收集到的验证码样本进行预处理,包括图像灰度化、二值化、去噪等操作,以提高后续特征提取的准确性。 3. 特征提取:从预处理后的验证码图像中提取有用的特征。常用的特征提取方法包括图像边缘检测、角点检测、形状描述子等。 4. 模型训练:利用机器学习算法,如支持向量机(SVM)、卷积神经网络(CNN)等,对提取的特征进行训练。训练过程中需要使用标注好的验证码样本作为训练集,并进行模型参数调优。 5. 验证码识别:使用训练好的模型对新的验证码进行识别。对于每个待识别验证码,首先进行预处理和特征提取,然后输入到训练好的模型中进行分类或回归,最终得到验证码识别结果。 需要注意的是,基于机器学习的验证码识别技术可能会受到验证码设计者的反制措施影响,如添加干扰噪声、扭曲变形等。因此,在实际应用中,可能需要不断改进和优化模型,以应对不同类型的验证码

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值