验证码识别技术

最新推荐文章于 2024-04-30 16:44:46 发布

yingfox

最新推荐文章于 2024-04-30 16:44:46 发布

阅读量904

点赞数

分类专栏： win32编程文章标签：数据库存储工作

本文链接：https://blog.csdn.net/yingfox/article/details/1921543

版权

win32编程专栏收录该内容

106 篇文章 1 订阅

订阅专栏

导读：
　　由于现在很多网站，为了加强安全性，以及防止程序的自动操作网站，都加入的了验证码技术。但却给广大站长推广宣传网站带来的麻烦。所以我准备写这篇关于验证码识别技术的文章，不足之处在所难免！本人从来不写东西，今天为了想落伍才写了！
　　广大站长宣传推广自己的网站，经常要发布一些宣传广告，如果靠人工，太慢太昂贵，所以理想的办法是使用群发软件，可现在很多网站都有验证码，这成为群发软件的技术难点，而识别也就难点中的难点，好的，闲话少说，言归正传！
　　我举的例子是比较难于识别的验证码，不讨论不变形、不换字体、不换大小、不旋转的验证码，这里我可能不会写出代码，只是提供我编写的思路，按照这个思路，我写出的程序，比市场上出售的程序的识别率还要高很多。（有兴趣的可以问我，我不想在这里帮别人宣传，呵呵～～）
　　首先以数字验证码开始，字母的要比数字麻烦一些，不过搞清楚了数字验证码的识别，字母的也就不难了。
　　验证码一般都是图片，而且一般都是4位数，处理过程是：先分割为4个部分，然后逐一识别，由于分割比较简单，我这里就不说了，我这里只说如何识别。
　　我的方法是把需要识别的图片，划分为 5 行，3 列，15个块，为什么要划分为15个块呢？先看图！
　　○■○
　　■○■
　　■○■
　　■○■
　　○■○
　　○■○
　　■■○
　　○■○
　　○■○
　　■■■
　　■■■
　　○○■
　　■■■
　　■○○
　　■■■
　　■■■
　　○○■
　　■■■
　　○○■
　　■■■
　　我先举这4个例子吧，其余的大家可以自己画出来。如果做过验证码识别的朋友，肯定很快就明白为什么划分为15个块，其实主要就是因为这样划分更合理，也就更能提高识别率。
　　我的方法是把需要识别的图片，划分为 5 行，3 列，15个块，然后对每个块进行计算，当每个块里的有效象素超过多少百分比的时候，就标记为 ■，如果没超过就标记为○，（这里为了显示方便我使用了■，○，你完全可以把它标为1、0），这里要注意一下，这里的百分比根据字体的粗细可以取 67％，50％，33％，20％，为什么要取这几个数？主要和计算机的浮点数运算有关，选这几个数，运算更快，且不容易出错，否则计算机在进行大量计算时也是会出错的！当然这里，你完全可以选适合你的验证码图片的百分比！！
　　如果验证码不变形、不换字体、不换大小、不旋转，我们的识别工作到这一步基本上就结束了，因为已经可以得到比较清晰的块图，对付大多数论坛，就已经足够了。^_^
　　如果验证码的变形比较大、且有很多字体、大小也不固定、且有旋转，那么我们经过划分、取比率显示后，可能会得到这样一个图：
　　○■○
　　○○■
　　○■○
　　■○○
　　■■■
　　那么这个数字应该是什么数字，我们需要使用排除法！排除所有不可能，在0123456789中，这个图不可能是013456789，他只能是：2。
　　写过验证码识别的朋友可能已经明白了！是的，我们需要建立一个类似的数据库，也就是识别库，出现哪些图，他就属于那个数字。
　　再举一个例子：
　　○■○
　　■○○
　　■■■
　　■○■
　　○■○
　　这是哪个数字呢？？是6，没错
　　我这里我需要再说明一下为什么要取5行，3列，15个块，因为块太多了你的识别库就会很大，块太少了，就会出现很多分不清楚的块图。
　　另外你取的百分比也需要注意，不能太大也不能太小。
　　好了，等做好自己的数据库，这时就可以识别大部分数字了。
　　最后还有一个问题，就是重复的问题，比如，图片上的数字，明明是 5，可由于它的字体不是常见的字体，且发生了旋转，最后得到这样一个图：
　　■■■
　　■○○
　　■■■
　　■○■
　　■■■
　　在我的数据库里，这个块图，是6，也是就说识别错误，怎么办？
　　我的解决方法是，在数据库里先把这条数据删除因为这个是错误的。
　　遇到这种情况，就需要进行二次处理，我的方法是：降低百分比，这时就得到了：
　　■■○
　　■○○
　　■■○
　　○○■
　　■■○
　　OK，经过降低百分比，图片就由“6”又变为“5”了，呵呵～～～由于降低了百分比，我们需要再建立一个识别库的来存储这些数据。

本文转自
http://www.mx68.com/WebDeveloper/2007-01-10/WebDeveloper_82745.shtml

yingfox

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
验证码识别技术

导读：　　由于现在很多网站，为了加强安全性，以及防止程序的自动操作网站，都加入的了验证码技术。但却给广大站长推广宣传网站带来的麻烦。所以我准备写这篇关于验证码识别技术的文章，不足之处在所难免！本人从来不写东西，今天为了想落伍才写了！　　广大站长宣传推广自己的网站，经常要发布一些宣传广告，如果靠人工，太慢太昂贵，所以理想的办法是使用群发软件，可现在很多网站都有验证码，这成为群发软件的技术
复制链接

扫一扫